Open AI transcribió sin autorización más de un millón de horas de contenido de YouTube para entrenar a GPT4

La noticia ha detonado la polémica y YouTube sostiene que, de ser así, supondría una clara violación de sus términos de servicio.
Imagen del busto de un robot humanoide. Tiene los ojos cerrados, el símbolo de OpenAI en la frente y numerosos cables conectados a su cabeza, como si estuviese cargando datos. Más cables se conectan con un ordenador situado frente a él, en cuya pantalla aparece el símbolo de YouTube, haciendo referencia a las más de un millón de horas de vídeo de la plataforma que OpenAI habría transcrito para entrenar su modelo GPT4.
8 de abril, de 2024
Copiar enlace

Los chatbots y los modelos lingüísticos grandes (LLM) requieren de una gran cantidad de datos constante para su entrenamiento y los creadores de estos modelos de IA se han valido de todo tipo de recursos para entrenarlos, pero estos (sobre todo los de calidad) no son infinitos. En este sentido, una investigación reciente de The New York Times ha revelado que los investigadores de Open AI agotaron las reservas de texto en inglés confiables de internet para finales de 2021, con lo cual debían conseguir la forma de seguir alimentando el modelo y afinarlo.

Para solucionar este problema, los investigadores de Open AI decidieron desarrollar «Whisper», un modelo de audio a texto, el cual habrían utilizado para transcribir audios de vídeos de YouTube. Obteniendo así acceso a miles de textos «nuevos». De esta forma, usaron la herramienta para transcribir más de un millón de horas de audio y entrenar a GPT4, su modelo de generación de texto más avanzado.

YouTube considera que OpenAI ha violado sus términos de servicio

La polémica de la situación se centra en si OpenAI ha violado los derechos tanto de YouTube como plataforma, como de los creadores de contenido que la usan. De hecho, las fuentes consultadas por The New York Times aseguraron que el equipo creador de Whisper, en el que se encontraba Greg Brockman, presidente de OpenAI, mantuvieron un debate interno sobre si extraer textos de los vídeos de YouTube era una violación a los términos de uso de la plataforma.

Lindsay Held, portavoz de OpenAI, envió un correo electrónico al medio The Verge, en el que asegura que la compañía selecciona conjuntos de datos «únicos» para cada uno de sus modelos y así «ayudar a su comprensión del mundo». Además, añade que utilizan «numerosas fuentes, en las que se incluyen datos disponibles públicamente, a la vez que realizan acuerdos para obtener datos no públicos».

Por su parte, Matt Bryant, portavoz de Google, también ofreció una entrevista a dicho medio e indicó que «tanto nuestros archivos robots.txt como nuestros términos de servicio prohíben la extracción o descarga no autorizada de contenido de YouTube». De igual forma, Neal Mohan, director ejecutivo de YouTube, aseguró que si Open AI se ha valido de vídeo de YouTube para entrenar su modelo de generación de vídeo realista, Sora, es una clara violación de los términos de servicio.

La ética dentro de la privacidad de datos 

Como sabemos, los derechos de autor de IA y la privacidad de datos digitales caen en un área gris de regulaciones que, a pesar de los esfuerzos de muchos gobiernos (como el europeo con su RGPD), aún presenta muchos vacíos legales por resolver.

A pesar del enfado latente por parte de Google y YouTube porque Open AI usó los datos de la plataforma de vídeo para entrenar GPT-4, la investigación de The New York Times reveló que Google también ha usado transcripciones de vídeos para alimentar sus propios modelos de generación de texto, lo cual también viola los derechos de los creadores de contenido.

Bryant aseguró que la compañía ha entrenado sus modelos «con algunos contenidos de YouTube, de acuerdo con nuestros acuerdos con los creadores de YouTube». De hecho, The New York Times informó de que el departamento legal de Google pidió al equipo de privacidad de la empresa que modificara su política de privacidad para ampliar el uso que podían dar a los datos de los usuarios.

Por otro lado, Meta también se enfrentó a los limitados datos de entrenamiento para su modelo de lenguaje Llama 2, por lo que el año pasado los directivos discutieron sobre comprar la editorial Simon & Schuster y acceder al material de largo formato, según el diario.

A raíz de las múltiples demandas producidas en el ámbito de los derechos de autor y privacidad de datos, una opción a tener en cuenta sería negociar licencias con los creadores para usar sus datos sin implicaciones legales, aunque esto conlleve más tiempo.

Foto: generada a través de GPT4

 

Publicado por

Content Manager en Marketing4eCommerce
"Content Manager" en Marketing4eCommerce, que traducido quiere decir: redactora, revisora, y fan absoluta de generar imágenes con IA.

Suscríbete a M4C

Únete a nuestro canal de Whatsapp

¡Todo lo que necesitas saber!

Apúntate a nuestra newsletter y recibe gratis en tu correo nuestros mejores artículos sobre eCommerce y marketing digital.