Desde que empezó toda esta explosión relacionada con la inteligencia artificial, especialmente la que permite generar imágenes y vídeos a partir de instrucciones de texto, no han parado de surgir dudas sobre el funcionamiento de todo el tinglado. Una de las más extendidas es sobre el uso indiscriminado que se hace de contenido publicado en internet para entrenar a los algoritmos.

Una de las primeras polémicas en este sentido vino de la mano de Getty Images, que interpuso una denuncia contra Stable Diffusion por usar su banco de imágenes para entrenar a su IA, obviamente sin permiso.
De hecho Stable Diffusion usaba directamente las imágenes gratuitas de la web con la marca de agua de la agencia, lo que provocaba que la propia IA intentara emular esta marca de agua en algunas de las imágenes que generaba con resultado bastante grotescos.
Adobe también ha tenido su polémica particular, en este caso por no dejar suficientemente claro en los términos de uso de su servicio de almacenaje en la nube si la compañía utilizaría el contenido de sus usuarios para entrenar a Firefly, su propia IA generativa.
Ahora el portal de noticias Proof News ha echado más leña al fuego asegurando que compañías como Apple. Nvidia, Salesforice o Anthropic están usando miles de vídeos de YouTube (y otras plataformas) para alimentar a sus propios algoritmos.
Obviamente todo esto ocurre a espaldas de los usuario, y a pesar de que YouTube supuestamente prohíbe usar materiales de la plataforma sin permiso. Según Proof News, hay constancia de que se han utilizado 173.536 archivos de subtítulos extraídos de más de 48.000 canales.
Estos archivos de subtítulos contienen transcripciones completas de canales educativos y de divulgación como Khan Academy, MIT o el propio canal de YouTube de la universidad de Harvard.
Entre el material utilizado también podemos encontrar a estrellas de la plataforma como Marques Brownlee, con más de 19 millones de suscriptores, o PewDewPie, con nada más y nada menos que 111 millones de seguidores. Algunos de los vídeos utilizados también incluyen teorías conspiranoicas e incluso contenido sobre el terraplanismo.
Por el momento este robo de datos destapado por Proof News no incluye las imágenes de los vídeos, solo el contenido textual. Aunque es cuestión de tiempo que esto ocurra ante el avance de las IA generativas de vídeo a partir de texto. Sin duda nos adentramos en un terreno desconocido.










En 50 años el mundo habrá cambiado hasta el punto de ser irreconocible para la gente de hoy.
El auge de la inteligencia artificial me preocupa bastante menos que el declive de la inteligencia natural.