Los vídeos de YouTube también se están usando para entrenar a las IA, asegura un estudio

Desde que empezó toda esta explosión relacionada con la inteligencia artificial, especialmente la que permite generar imágenes y vídeos a partir de instrucciones de texto, no han parado de surgir dudas sobre el funcionamiento de todo el tinglado. Una de las más extendidas es sobre el uso indiscriminado que se hace de contenido publicado en internet para entrenar a los algoritmos.

getty
A la izquierda una imagen del catálogo de Getty Images, a la derecha un imagen generada con inteligencia artificial con Stable Diffusion.

Una de las primeras polémicas en este sentido vino de la mano de Getty Images, que interpuso una denuncia contra Stable Diffusion por usar su banco de imágenes para entrenar a su IA, obviamente sin permiso.

Publicidad

De hecho Stable Diffusion usaba directamente las imágenes gratuitas de la web con la marca de agua de la agencia, lo que provocaba que la propia IA intentara emular esta marca de agua en algunas de las imágenes que generaba con resultado bastante grotescos.

Adobe también ha tenido su polémica particular, en este caso por no dejar suficientemente claro en los términos de uso de su servicio de almacenaje en la nube si la compañía utilizaría el contenido de sus usuarios para entrenar a Firefly, su propia IA generativa.

Ahora el portal de noticias Proof News ha echado más leña al fuego asegurando que compañías como Apple. Nvidia, Salesforice o Anthropic están usando miles de vídeos de YouTube (y otras plataformas) para alimentar a sus propios algoritmos.

Obviamente todo esto ocurre a espaldas de los usuario, y a pesar de que YouTube supuestamente prohíbe usar materiales de la plataforma sin permiso. Según Proof News, hay constancia de que se han utilizado 173.536 archivos de subtítulos extraídos de más de 48.000 canales.

Estos archivos de subtítulos contienen transcripciones completas de canales educativos y de divulgación como Khan Academy, MIT o el propio canal de YouTube de la universidad de Harvard.

Entre el material utilizado también podemos encontrar a estrellas de la plataforma como Marques Brownlee, con más de 19 millones de suscriptores, o PewDewPie, con nada más y nada menos que 111 millones de seguidores. Algunos de los vídeos utilizados también incluyen teorías conspiranoicas e incluso contenido sobre el terraplanismo.

Por el momento este robo de datos destapado por Proof News no incluye las imágenes de los vídeos, solo el contenido textual. Aunque es cuestión de tiempo que esto ocurra ante el avance de las IA generativas de vídeo a partir de texto. Sin duda nos adentramos en un terreno desconocido.

2 COMENTARIOS

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.