Noticias

Entrenamiento de modelos de IA en YouTube: ¿Violación de privacidad?

Published

on

El YouTuber Marques Brownlee discute iOS 18 en un nuevo video. Este video específico no formaba parte del gran conjunto de datos que se utilizó para entrenar modelos de IA, pero muchos de sus otros videos sí.

Los modelos de IA en Apple, Salesforce, Anthropic y otros grandes jugadores tecnológicos fueron entrenados en decenas de miles de videos de YouTube sin el consentimiento de los creadores y potencialmente en violación de los términos de YouTube, según un nuevo informe publicado tanto en Proof News como en Wired.

El polémico uso de datos de YouTube para entrenar IA

Las empresas entrenaron sus modelos en parte utilizando “The Pile”, una colección de la organización sin fines de lucro EleutherAI que se creó como una forma de ofrecer un conjunto de datos útil a individuos o empresas que no tienen los recursos para competir con las grandes tecnológicas, aunque también ha sido utilizado por esas empresas más grandes.

El Pile incluye libros, artículos de Wikipedia y mucho más. Eso incluye leyendas de YouTube recopiladas por la API de leyendas de YouTube, extraídas de 173,536 videos de YouTube en más de 48,000 canales. Esto incluye videos de grandes YouTubers como MrBeast, PewDiePie y el popular comentarista tecnológico Marques Brownlee. En X, Brownlee criticó el uso de los datos por parte de Apple, pero reconoció que asignar la culpa es complejo cuando Apple no recopiló los datos en sí mismo. Él escribió:

Apple ha obtenido datos para su IA de varias empresas

Una de ellas extrajo un montón de datos/transcripciones de videos de YouTube, incluido el mío

Apple técnicamente evita la “culpa” aquí porque no son quienes extraen los datos

Pero este será un problema en evolución durante mucho tiempo

Reacciones de los creadores de contenido

La mayoría de los creadores se sorprendieron al saber que su contenido había sido utilizado de esta manera, y aquellos que proporcionaron declaraciones criticaron a EleutherAI y a las empresas que usaron su conjunto de datos.

Nadie vino a mí y dijo: “Nos gustaría usar esto”… Esto es mi sustento, y dedico tiempo, recursos, dinero y personal a crear este contenido. Realmente no hay escasez de trabajo.

Estamos frustrados al saber que nuestro contenido educativo cuidadosamente producido ha sido utilizado de esta manera sin nuestro consentimiento.

Además, surge la pregunta de si la extracción de este contenido viola los términos de YouTube, que prohíben el acceso a los videos por “medios automatizados”. El fundador de EleutherAI, Sid Black, afirmó que usó un script para descargar las leyendas a través de la API de YouTube, al igual que lo hace un navegador web.

Anthropic es una de las empresas que ha entrenado modelos en el conjunto de datos, y afirma que no hay ninguna violación aquí. La portavoz Jennifer Martinez dijo:

El Pile incluye un pequeño subconjunto de subtítulos de YouTube… Los términos de YouTube cubren el uso directo de su plataforma, que es distinto del uso del conjunto de datos de The Pile. Sobre el punto de posibles violaciones de los términos de servicio de YouTube, tendríamos que remitirte a los autores de The Pile.

Un portavoz de Google le dijo a Proof News que Google ha tomado “medidas a lo largo de los años para evitar la extracción abusiva y no autorizada”, pero no proporcionó una respuesta más específica. Esta no es la primera vez que las empresas de IA y tecnología han sido objeto de críticas por entrenar modelos en videos de YouTube sin permiso. Notablemente, se cree que OpenAI (la empresa detrás de ChatGPT y la herramienta de generación de videos Sora) ha utilizado datos de YouTube para entrenar sus modelos, aunque no todas las acusaciones al respecto han sido confirmadas.

En una entrevista con Nilay Patel de The Verge, el CEO de Google, Sundar Pichai, sugirió que el uso de videos de YouTube para entrenar a OpenAI’s Sora habría violado los términos de YouTube. Sin embargo, ese uso es distinto de la extracción de leyendas a través de la API.

Con el continuo aumento del contenido generado por IA en Internet, será cada vez más desafiante reunir conjuntos de datos para entrenar IA que no incluyan contenido producido previamente por IA. La falta de control de los propietarios de propiedad intelectual sobre cómo se utiliza su trabajo en la web abierta se hace evidente.

Es importante destacar que no necesariamente se utilizó esta información para entrenar modelos que produzcan contenido competitivo que llegue a los usuarios finales. Por ejemplo, Apple puede haber entrenado en el conjunto de datos con fines de investigación o para mejorar la predicción de texto en sus dispositivos.

Como se mencionó anteriormente, el uso de The Pile no es algo nuevo en círculos de IA y se ha sabido que se utiliza para el entrenamiento de empresas tecnológicas en el pasado. Ha sido citado en múltiples demandas por propietarios de propiedad intelectual contra empresas de IA y tecnología. Los demandados en esas demandas, incluido OpenAI, argumentan que este tipo de extracción es un uso justo. Las demandas aún no se han resuelto en los tribunales.

Sin embargo, Proof News investigó para identificar detalles sobre el uso de las leyendas de YouTube y llegó al punto de crear una herramienta que puedes usar para buscar en The Pile videos o canales individuales.

El trabajo expone cuán robusta es la recopilación de datos y llama la atención sobre lo poco de control que tienen los propietarios de propiedad intelectual sobre cómo se utiliza su trabajo si está en la web abierta.

¡Sigue a Diario Artificial en las redes!
Si te interesa estar al tanto de las últimas noticias sobre inteligencia artificial y tecnología, no olvides seguir a Diario Artificial en sus redes sociales para no perderte ninguna actualización. ¡Únete a la comunidad de IA!

Leave a Reply

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Tendencias

Exit mobile version