Chat GPT-4
OpenAI consideró que necesitaba más datos de entrenamiento en 2021 y discutió de dónde obtenerlos (Fuente de imagen referencial: EFE/Wu Hao)

El SumarioOpenAI creó un programa para transcribir más de un millón de horas de videos de Youtube con el objetivo de entrenar el modelo de generación de texto GPT-4, su modelo más avanzado abierto al público, según una exclusiva de The New York Times (NYT).

El diario asegura que OpenAI, una empresa sin ánimo de lucro, desarrolló un programa bautizado como ‘Whisper’ que extrajo texto de más de un millón de horas en videos para obtener datos de entrenamiento de modelos de generación de lenguaje, conocidos como LLM.

La empresa mantuvo un debate interno sobre si la extracción de texto de los vídeos alojados en la plataforma propiedad de Google suponían una violación de términos de uso.

Según el artículo, OpenAI consideró que necesitaba más datos de entrenamiento en 2021 y discutió si obtenerlos de Youtube, podcast o audiolibros.

En una reciente entrevista el consejero ejecutivo de YouTube, Neal Mohan, aseguró que si OpenAI ha usado vídeos de la plataforma para entrenar ‘Sora’, su modelo de generación de vídeos realistas, estaría violando sus términos de servicio.

«Los creadores de contenido que vienen a Youtube tienen ciertas expectativas, entre ellas que los términos de servicio se cumplen. Nuestros términos permiten extraer cierto contenido como el título, el nombre de canal o el nombre del creador para facilitar la web abierta», explicó Mohan.

«No está permitido descargar las transcripciones o partes de los videos. Eso es una violación clara de nuestro términos de contenido», añadió el directivo.

La portavoz de OpenAI Lindsay Held indicó en una respuesta a la exclusiva obtenida por The Verge que la compañía crea bases de datos «únicas» y utiliza «numerosas fuentes disponibles públicamente y realiza acuerdos para obtener dato que no es público».

Google transcribe los videos de Youtube para obtener texto para alimentar a sus modelos de generación, algo que violaría los derechos de los creadores que suben sus videos a la plataforma, según fuentes consultadas por el diario.

De interés: OpenAI podría lanzar su nuevo chatbot con IA avanzada a mediados de año

Fiorella Tagliafico

Con información de EFE Servicios y redes sociales

Visita nuestro canal de noticias en Google News y síguenos para obtener información precisa, interesante y estar al día con todo. También en Twitter e Instagram puedes conocer diariamente nuestros contenidos