Meta admet avoir téléchargé illégalement des millions de livres pour l'entraînement de l'IA

Meta, la société mère de Facebook, Instagram et WhatsApp, a admis avoir téléchargé illégalement de vastes quantités de livres pour entraîner son intelligence artificielle (IA). Des documents présentés dans un procès aux États-Unis contre la société, y compris des courriels internes, confirment l'accusation.

L'affaire a été intentée par des artistes et des écrivains qui affirment que Meta a téléchargé des œuvres protégées par le droit d'auteur à partir de sources illicites sans aucune compensation. Ces données ont été utilisées pour entraîner le modèle linguistique de Meta, qui peut générer du contenu et répondre aux questions des utilisateurs.

Meta avait déjà reconnu avoir téléchargé des bases de données entières à partir de sources pirates telles que LibGen. Cependant, les courriels récemment publiés révèlent de plus amples détails : en plus des 80,6 To téléchargés depuis LibGen, Meta a téléchargé 35,7 To de livres à partir d'une autre plateforme et au moins 81,7 To de données à partir d'Anna's Archive, un service proposant des œuvres sans droits d'auteur.

La situation pour Meta pourrait s'aggraver en raison de la méthode utilisée : le téléchargement via torrent signifie que la société a contribué au téléchargement illégal de livres par d'autres utilisateurs, car elle a servi de fournisseur de seeds pour la communauté. Meta n'a pas encore fourni les détails demandés par les plaignants concernant les téléchargements.

Des courriels échangés par des employés de Meta confirment qu'ils étaient conscients que le téléchargement de livres via torrent à partir de bases de données telles que LibGen était illégal et pouvait mettre en péril des contrats commerciaux ou compliquer l'avenir de la société.

"Télécharger un torrent depuis un ordinateur portable d'entreprise ne semble pas correct", a déclaré Nikolay Bashlykov, chercheur chez Meta, dans un courriel, accompagné d'un emoji riant. Dans un autre message, un employé suggère que "le modèle d'OpenAI est probablement entraîné" sur des bases de données similaires, tandis qu'un autre dit que l'utilisation d'un VPN pour masquer la connexion pendant le téléchargement serait une alternative viable.

Ce débat indique que Meta a tenté de dissimuler ses activités, en utilisant des serveurs en dehors de la société pour empêcher les données d'être liées à la société mère de Facebook. Ils ont même modifié les paramètres du client torrent pour envoyer le moins de seeds possible aux autres utilisateurs.

Le nom du PDG et co-fondateur Mark Zuckerberg est également mentionné. Dans un message, un collaborateur informe que la "décision d'utiliser" LibGen comme source a été prise "après que la situation a dégénéré jusqu'à MZ", ce qui indique qu'il a approuvé ou a au moins été informé du processus, contredisant les déclarations précédentes qui niaient l'implication du dirigeant.

Meta n'a pas encore fait de commentaires sur la publication des nouvelles preuves. Auparavant, la société avait suggéré que l'entraînement de l'IA à partir de bases de données et de livres entiers était une question d'"utilisation équitable" - l'utilisation acceptable de la propriété intellectuelle à certaines fins sans nécessiter d'autorisation ou de paiement au propriétaire.

Avec les preuves en main, les avocats des plaignants souhaitent maintenant rappeler certains témoins, d'autant plus que leurs réponses initiales sont maintenant considérées comme contradictoires. Ils estiment que l'ajout de l'argument selon lequel la société a tenté de dissimuler le téléchargement et a peut-être collaboré à la mise à disposition des fichiers via torrent pourrait aggraver l'affaire.

Avez-vous trouvé une erreur ou une inexactitude ?

Nous étudierons vos commentaires dans les plus brefs délais.