Apple, NVIDIA y otras empresas entrenaron su IA con vídeos de YouTube sin permiso de sus autores

Las grandes compañías tecnológicas que anuncian novedades con su propia inteligencia artificial (IA) no paran de crecer. La última en hacerlo ha sido Apple que, según una nueva investigación de Proof News, utilizó vídeos de YouTube sin consentimiento de sus autores para el entrenamiento de la IA. Pero la marca de la manzana no fue la única. Hubo otras que también recurrieron al contenido de la plataforma en streaming, como NVIDIA y Anthropic, entre otras
EleutherAI es una empresa sin ánimo de lucro que facilita un conjunto de datos con transcripciones de 173.536 vídeos de YouTube. Estos pertenecen a más de 48.000 canales y parece ser que los creadores desconocían que su contenido estaba usándose para entrenar IA.
Por lo tanto, las compañías que han empleado las transcripciones de EleutherAI no contaban ni con el consentimiento de los youtubers ni ofrecían una compensación. Según el análisis de Proof News, entre las muchas firmas que usaron el conjunto de datos, destacan Apple, NVIDIA, Anthropic y Salesforce.
Aunque EleutherAI no ofrezca las imágenes de los vídeos de YouTube, sí que utiliza transcripciones de los mismos. Entre el contenido usado, destacan youtubers muy famosos, como MrBeast (289 millones de suscriptores), PewDiePie (111 millones de suscriptores) o Marques Brownlee (19,1 millones de suscriptores).
Marques Brownlee@MKBHDApple has sourced data for their AI from several companiesOne of them scraped tons of data/transcripts from YouTube videos, including mine
Apple technically avoids «fault» here because they’re not the ones scraping
But this is going to be an evolving problem for a long time https://t.co/U93riaeSlY
16 de julio, 2024 • 15:40
18.6K
107
Además, había otros canales educativos, como Kahn Academy, MIT y Harvard, y medios de comunicación, como Wall Street Journal, NPR y la BBC. Pero el aprendizaje de su IA no solo se basó en noticias e información veraz, sino que también contaba con material que promovía teorías conspirativas como la de que la Tierra es plana.
Dentro del conjunto de datos de EleutherAI no solo había transcripciones de los vídeos de YouTube. También daba acceso a información del Parlamento Europeo, de la Wikipedia en inglés y varios correos electrónicos de empleados de Enron Corporation que se publicaron como parte de una investigación federan en su día.
YouTube quiere poner límites al entrenamiento de IA
La plataforma de vídeos en streaming gratuita de Google es una mina de oro para el entrenamiento de IA. Aquellas tecnológicas interesadas en desarrollar herramientas con inteligencia artificial no solo pueden recurrir a las transcripciones. También hay audios, vídeos o imágenes que pueden resultar verdaderamente útiles.
Teóricamente, YouTube quiere eliminar la posibilidad de que las marcas usen sus datos para entrenar a sus modelos de IA. De hecho, hace poco Neal Mohan, CEO de la plataforma, aseguraba que las compañías que usaban sus vídeos violan sus términos y condiciones.
Mohan especialmente se refería al entrenamiento de Sora, el generador de vídeos basado en texto de OpenAI. Según el profesional, no había constancia de que hubiesen usado vídeos de su plataforma, pero, de haber sido así, sería una «clara violación», decía.
Ahora, tenemos constancia gracias a la investigación de Proof News que al menos cuatro empresas de Sillicon Valley sí que utilizaron su contenido: Apple, NVIDIA, Anthropic y Salesforce. También se ha hablado del uso del pack de datos por parte de Bloomberg y Databricks. Y eso sin contar a la propia EleutherAI que es la que facilita el conjunto de datos con transcripciones de los vídeos de YouTube.
Aunque no todas las marcas implicadas hayan hablado, sí que lo han hecho representantes de Anthropic y Salesforce. Según afirman, sí que usaron la complicación de conjuntos de datos de EleutherAI llamada Pile. En ella, se incluyen subtítulos de vídeos de YouTube de miles de cuentas. Sin embargo, niegan que hayan cometido irregularidades.
Por su parte, NVIDIA se ha negado a hacer comentarios a los investigadores de Proofnews. Y Apple y el resto de compañías que entrenaron IA con el contenido de EleutherAI no respondieron a las solicitudes de comentarios para el estudio.