Tech

YouTuber presenta una demanda colectiva por el raspado de transcripciones de creadores por parte de OpenAI

Un creador de YouTube está buscando presentar una demanda colectiva contra OpenAI, alegando que la compañía entrenó sus modelos de inteligencia artificial generativa en millones de transcripciones de vídeos de YouTube sin notificar — o compensar — a los propietarios de los vídeos.

En una queja presentada el pasado viernes en el Tribunal de Distrito de los Estados Unidos para el Distrito Norte de California, los abogados de David Millette, un usuario de YouTube con sede en Massachusetts, alegan que OpenAI transcribió de manera clandestina los vídeos de Millette y de otros creadores para entrenar los modelos que alimentan la plataforma de chatbot impulsada por inteligencia artificial de la empresa, ChatGPT, y otras herramientas y productos de inteligencia artificial generativa. Al recolectar estos datos, OpenAI "obtuvo significativas ganancias" del trabajo de los creadores, alega la queja, mientras violaba la ley de derechos de autor y los términos de servicio de YouTube que prohíben el uso de vídeos para aplicaciones independientes de su servicio.

“A medida que los productos de [OpenAI] se vuelven más sofisticados a través del uso de conjuntos de datos de entrenamiento, se vuelven más valiosos para los usuarios potenciales y actuales, que adquieren suscripciones para acceder a los productos de [OpenAI],” dice la queja. “Gran parte del material en los conjuntos de datos de entrenamiento de OpenAI, sin embargo, proviene de obras que fueron copiadas por OpenAI sin consentimiento, sin crédito y sin compensación.”

Millette, representado por el bufete de abogados Bursor and Fisher, está buscando un juicio por jurado y más de $5 millones en daños para todos los usuarios de YouTube cuyos datos podrían haber sido recopilados en el entrenamiento de OpenAI.

Los modelos de inteligencia artificial generativa como los de OpenAI no tienen inteligencia real. Alimentados con un gran número de ejemplos (por ejemplo, películas, grabaciones de voz, ensayos, etc.), los modelos “aprenden” cuán probable es que aparezcan datos basados en patrones, incluido el contexto de cualquier dato circundante.

La mayoría de los modelos se entrenan con datos obtenidos de sitios web públicos y conjuntos de datos en la web. Las empresas argumentan que el uso legítimo protege sus esfuerzos para raspar datos indiscriminadamente y usarlos para entrenar modelos comerciales. Sin embargo, muchos titulares de derechos de autor no están de acuerdo y están presentando demandas destinadas a detener esta práctica.

Las transcripciones de vídeos se han convertido en un ingrediente clave de datos de entrenamiento a medida que otros pozos de datos se agotan, por así decirlo.

Más del 35% de los sitios web más populares del mundo ahora bloquean el web crawler de OpenAI, según datos de Originality.AI. Y alrededor del 25% de los datos de fuentes de “alta calidad” se han restringido de los principales conjuntos de datos utilizados para entrenar modelos de inteligencia artificial, encontró un estudio de la Iniciativa de Procedencia de Datos del MIT. Si la tendencia actual de bloqueo de acceso continúa, el grupo de investigación Epoch AI predice que los desarrolladores se quedarán sin datos para entrenar modelos de inteligencia artificial generativa entre 2026 y 2032.

En abril, The New York Times informó que OpenAI creó su primer modelo de reconocimiento de voz, Whisper, con el propósito de transcribir audio de vídeos para recopilar datos de entrenamiento adicionales. Un equipo de OpenAI que incluía al presidente de la compañía, Greg Brockman, transcribió más de un millón de horas de vídeo de YouTube utilizando Whisper, según The Times, y utilizó las transcripciones para entrenar el modelo de generación y análisis de texto de OpenAI, GPT-4.

Algunos empleados de OpenAI discutieron cómo ese movimiento podría ir en contra de las reglas de YouTube, según The Times.

En julio, Proof News informó que empresas como Anthropic, Apple, Salesforce y Nvidia utilizaron un conjunto de datos llamado The Pile, que contiene subtítulos de cientos de miles de vídeos de YouTube, para entrenar modelos de inteligencia artificial generativa. Muchos creadores de YouTube cuyos subtítulos fueron recopilados en The Pile no estaban al tanto y no dieron su consentimiento para esto; Apple luego emitió un comunicado diciendo que no tenía la intención de utilizar esos modelos para alimentar ninguna función de inteligencia artificial en sus productos.

Google, la empresa matriz de YouTube, también ha buscado utilizar las transcripciones para entrenar sus modelos.

El año pasado, Google amplió sus términos de servicio (ToS) en parte para permitir que la compañía acceda a más datos de usuario para el entrenamiento de modelos de inteligencia artificial generativa. Con los antiguos ToS, no estaba claro si Google podía utilizar datos de YouTube para construir productos más allá de la plataforma de vídeo. No es así con los nuevos términos, que flexibilizan considerablemente las restricciones.

Nos hemos comunicado con OpenAI y Google para obtener comentarios sobre la demanda colectiva y actualizaremos este artículo si responden.

Ha sido un comienzo difícil de mes para OpenAI.

El lunes, el CEO de Tesla y X, Elon Musk, presentó una nueva demanda contra OpenAI y el CEO Sam Altman acusando a la compañía de abandonar su misión original sin fines de lucro al reservar parte de su tecnología más sofisticada para clientes comerciales. Musk hizo las mismas afirmaciones en una demanda presentada en febrero contra OpenAI, pero la nueva demanda alega que OpenAI está participando en actividades de extorsión, también.

Related Articles

Back to top button