Meta, la empresa matriz de Facebook, Instagram y WhatsApp, ha admitido haber descargado ilegalmente grandes cantidades de libros para entrenar su inteligencia artificial (IA). Documentos presentados en una demanda en Estados Unidos contra la empresa, incluidos correos electrónicos internos, confirman la acusación.
El caso fue presentado por artistas y escritores que alegan que Meta descargó obras protegidas por derechos de autor de fuentes ilícitas sin compensación. Estos datos se usaron para entrenar el modelo de lenguaje de Meta, que puede generar contenido y responder preguntas de los usuarios.
Meta ya había reconocido haber descargado bases de datos completas de fuentes piratas como LibGen. Sin embargo, los correos electrónicos recién publicados revelan más detalles: además de los 80,6 TB descargados de LibGen, Meta descargó 35,7 TB de libros de otra plataforma y al menos 81,7 TB de datos de Anna's Archive, un servicio que ofrece obras sin derechos de autor.
La situación para Meta podría empeorar debido al método utilizado: la descarga a través de torrent significa que la empresa contribuyó a la descarga ilegal de libros por parte de otros usuarios, ya que actuó como proveedor de seeds para la comunidad. Meta aún no ha proporcionado los detalles solicitados por los demandantes con respecto a las descargas.
Los correos electrónicos intercambiados por los empleados de Meta confirman que eran conscientes de que la descarga de libros a través de torrent desde bases de datos como LibGen era ilegal y podía poner en peligro los contratos comerciales o complicar el futuro de la empresa.
"Descargar torrent desde una computadora portátil corporativa no parece correcto", dijo Nikolay Bashlykov, investigador de Meta, en un correo electrónico, acompañado de un emoji de risa. En otro mensaje, un empleado sugiere que "el modelo de OpenAI probablemente está entrenado" en bases de datos similares, mientras que otro dice que usar una VPN para enmascarar la conexión durante la descarga sería una alternativa viable.
Este debate indica que Meta intentó ocultar sus actividades, utilizando servidores fuera de la empresa para evitar que los datos se vincularan a la empresa matriz de Facebook. Incluso modificaron la configuración del cliente de torrent para enviar la menor cantidad posible de seeds a otros usuarios.
El nombre del CEO y cofundador Mark Zuckerberg también se menciona. En un mensaje, un colaborador informa que la "decisión de usar" LibGen como fuente se tomó "después de que la situación escalara a MZ", lo que indica que aprobó o al menos fue informado del proceso, contradiciendo las declaraciones anteriores que negaban la participación del ejecutivo.
Meta aún no ha hecho comentarios sobre la publicación de las nuevas pruebas. Anteriormente, la empresa había sugerido que el entrenamiento de la IA a partir de bases de datos y libros completos era una cuestión de "uso justo" - el uso aceptable de la propiedad intelectual para ciertos fines sin requerir autorización o pago al propietario.
Con las pruebas en mano, los abogados de los demandantes ahora quieren volver a llamar a ciertos testigos, especialmente porque sus respuestas iniciales ahora se consideran contradictorias. Creen que agregar el argumento de que la empresa intentó ocultar la descarga y puede haber colaborado en la disponibilidad de archivos a través de torrent podría empeorar el caso.