Meta, die Muttergesellschaft von Facebook, Instagram und WhatsApp, hat zugegeben, illegal riesige Mengen an Büchern heruntergeladen zu haben, um seine künstliche Intelligenz (KI) zu trainieren. Dokumente, die in einem US-amerikanischen Rechtsstreit gegen das Unternehmen vorgelegt wurden, darunter interne E-Mails, bestätigen den Vorwurf.
Der Fall wurde von Künstlern und Schriftstellern angestrengt, die behaupten, dass Meta urheberrechtlich geschützte Werke aus illegalen Quellen heruntergeladen hat, ohne eine Entschädigung zu zahlen. Diese Daten wurden verwendet, um das Sprachmodell von Meta zu trainieren, das Inhalte generieren und Fragen von Nutzern beantworten kann.
Meta hatte bereits eingeräumt, dass es ganze Datenbanken aus Piratenquellen wie LibGen heruntergeladen hat. Die kürzlich veröffentlichten E-Mails enthüllen jedoch weitere Details: Neben den 80,6 TB, die von LibGen heruntergeladen wurden, hat Meta 35,7 TB Bücher von einer anderen Plattform und mindestens 81,7 TB Daten von Anna's Archive heruntergeladen, einem Dienst, der urheberrechtsfreie Werke anbietet.
Die Situation für Meta könnte sich aufgrund der verwendeten Methode verschlimmern: Das Herunterladen über Torrent bedeutet, dass das Unternehmen zum illegalen Herunterladen von Büchern durch andere Nutzer beigetragen hat, da es als Seed-Anbieter für die Community fungierte. Meta hat die von den Klägern angeforderten Details zu den Downloads noch nicht bereitgestellt.
E-Mails, die von Meta-Mitarbeitern ausgetauscht wurden, bestätigen, dass sie wussten, dass das Herunterladen von Büchern über Torrent aus Datenbanken wie LibGen illegal war und Geschäftsverträge gefährden oder die Zukunft des Unternehmens erschweren konnte.
"Das Herunterladen von Torrent von einem Firmenlaptop scheint nicht richtig zu sein", schrieb Nikolay Bashlykov, Forscher bei Meta, in einer E-Mail, begleitet von einem lachenden Emoji. In einer anderen Nachricht schlägt ein Mitarbeiter vor, dass "das Modell von OpenAI wahrscheinlich" auf ähnlichen Datenbanken trainiert wurde, während ein anderer sagt, dass die Verwendung eines VPN, um die Verbindung während des Downloads zu maskieren, eine praktikable Alternative wäre.
Diese Debatte zeigt, dass Meta versucht hat, seine Aktivitäten zu verschleiern, indem es Server außerhalb des Unternehmens einsetzte, um zu verhindern, dass die Daten mit der Muttergesellschaft von Facebook in Verbindung gebracht werden. Sie haben sogar die Einstellungen des Torrent-Clients so geändert, dass sie so wenig Seeds wie möglich an andere Nutzer senden.
Der Name des CEO und Mitbegründers Mark Zuckerberg wird ebenfalls erwähnt. In einer Nachricht informiert ein Mitarbeiter, dass die "Entscheidung, LibGen" als Quelle zu verwenden, getroffen wurde, "nachdem die Situation bis zu MZ eskaliert ist", was darauf hindeutet, dass er den Prozess genehmigt hat oder zumindest darüber informiert wurde, im Widerspruch zu früheren Aussagen, die die Beteiligung des Managers bestritten.
Meta hat sich noch nicht zu der Veröffentlichung der neuen Beweise geäußert. Zuvor hatte das Unternehmen vorgeschlagen, dass das Training der KI anhand ganzer Datenbanken und Bücher eine Frage der "fairen Nutzung" sei - die akzeptable Nutzung von geistigem Eigentum für bestimmte Zwecke, ohne dass eine Genehmigung oder Zahlung des Eigentümers erforderlich ist.
Mit den vorliegenden Beweisen wollen die Anwälte der Kläger nun bestimmte Zeugen erneut vorladen, insbesondere weil ihre ursprünglichen Antworten nun als widersprüchlich gelten. Sie glauben, dass die Hinzufügung des Arguments, dass das Unternehmen versucht hat, den Download zu verbergen und möglicherweise an der Bereitstellung von Dateien über Torrent mitgewirkt hat, den Fall verschlimmern könnte.