{"id":6115,"date":"2024-07-24T07:00:00","date_gmt":"2024-07-24T05:00:00","guid":{"rendered":"https:\/\/www.safecreative.org\/tips\/es\/?p=6115"},"modified":"2025-08-18T13:12:58","modified_gmt":"2025-08-18T11:12:58","slug":"miles-de-videos-de-youtube-se-han-usado-para-entrenar-ia-sin-consentimiento","status":"publish","type":"post","link":"https:\/\/www.safecreative.org\/tips\/es\/miles-de-videos-de-youtube-se-han-usado-para-entrenar-ia-sin-consentimiento\/","title":{"rendered":"Miles de v\u00eddeos de YouTube se han usado para entrenar IA sin consentimiento"},"content":{"rendered":"\n<p class=\"wp-block-paragraph\">Una <a href=\"https:\/\/www.proofnews.org\/apple-nvidia-anthropic-used-thousands-of-swiped-youtube-videos-to-train-ai\/\" target=\"_blank\" rel=\"noreferrer noopener\">investigaci\u00f3n<\/a> de Proof News ha descubierto que <strong>Apple, Nvidia, Anthropic y Salesforce han utilizado sin consentimiento de sus creadores miles de v\u00eddeos de YouTube <\/strong>para <strong>entrenar sus modelos de inteligencia artificial (IA).<\/strong> Se estima que han usado transcripciones de 173.536 v\u00eddeos creados por m\u00e1s de 48.000 canales, violando las normas expl\u00edcitas de la plataforma que proh\u00edben el uso de sus materiales y su recopilaci\u00f3n por medios automatizados o sin permiso.&nbsp;<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Las transcripciones proceden del conjunto de datos YouTube Subtitles&nbsp;<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">A pesar de la reserva que muestran las grandes tecnol\u00f3gicas sobre las fuentes de datos para entrenar sus modelos, ha salido a la luz esta nueva infracci\u00f3n de <em>copyright<\/em> por parte de cuatro pesos pesados de Silicon Valley. En una informaci\u00f3n copublicada por <a href=\"https:\/\/www.wired.com\/story\/youtube-training-data-apple-nvidia-anthropic\/\" target=\"_blank\" rel=\"noreferrer noopener\">Wired<\/a> y Proof News se ha dado a conocer que las transcripciones de los v\u00eddeos proced\u00edan de un conjunto de datos llamado YouTube Subtitles.&nbsp;<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Son m\u00e1s de 173.000 procedentes de v\u00eddeos educativos y canales de TV&nbsp;&nbsp;<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Aunque este conjunto de datos no incluye im\u00e1genes, contiene transcripciones de videos de canales educativos y de aprendizaje en l\u00ednea como Khan Academy, MIT y Harvard. Tambi\u00e9n de medios de comunicaci\u00f3n como The Wall Street Journal, NPR y BBC o de los shows televisivos The Late Show With Stephen Colbert, Last Week Tonight With John Oliver y Jimmy Kimmel Live.&nbsp;<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Tambi\u00e9n se han visto afectadas megaestrellas de YouTube&nbsp;<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Adem\u00e1s, incorpora material de megaestrellas de YouTube, como Mr. Beast, que cuenta con 289 millones de suscriptores, y Marques Brownlee, que en una publicaci\u00f3n en X asegura:<\/p>\n\n\n\n<blockquote class=\"wp-block-quote is-layout-flow wp-block-quote-is-layout-flow\">\n<p class=\"wp-block-paragraph\">\u00abApple ha obtenido datos para su IA de varias empresas. Una de ellas extrajo toneladas de datos\/transcripciones de v\u00eddeos de YouTube, incluido el m\u00edo. Apple t\u00e9cnicamente evita la \u00abculpa\u00bb aqu\u00ed porque no son ellos los que raspan. Pero esto va a ser un problema en evoluci\u00f3n durante mucho tiempo.\u00bb&nbsp;<\/p>\n<\/blockquote>\n\n\n\n<figure class=\"wp-block-embed is-type-rich is-provider-twitter wp-block-embed-twitter\"><div class=\"wp-block-embed__wrapper\">\n<blockquote class=\"twitter-tweet\" data-width=\"550\" data-dnt=\"true\"><p lang=\"en\" dir=\"ltr\">Apple has sourced data for their AI from several companies<br><br>One of them scraped tons of data\/transcripts from YouTube videos, including mine<br><br>Apple technically avoids &quot;fault&quot; here because they&#39;re not the ones scraping<br><br>But this is going to be an evolving problem for a long time <a href=\"https:\/\/t.co\/U93riaeSlY\">https:\/\/t.co\/U93riaeSlY<\/a><\/p>&mdash; Marques Brownlee (@MKBHD) <a href=\"https:\/\/twitter.com\/MKBHD\/status\/1813206956716212511?ref_src=twsrc%5Etfw\">July 16, 2024<\/a><\/blockquote><script async src=\"https:\/\/platform.twitter.com\/widgets.js\" charset=\"utf-8\"><\/script>\n<\/div><\/figure>\n\n\n\n<p class=\"wp-block-paragraph\">Como parte de la investigaci\u00f3n, <strong>Proof News cre\u00f3 una <a href=\"https:\/\/www.proofnews.org\/youtube-ai-search\/\" target=\"_blank\" rel=\"noreferrer noopener\">herramienta<\/a> de b\u00fasqueda interactiva <\/strong>con la que los <strong>creadores de contenido pueden comprobar si sus v\u00eddeos aparecen como material de entrenamiento<\/strong>, informa <a href=\"https:\/\/www.theverge.com\/2024\/7\/16\/24199636\/apple-anthropic-nvidia-salesforce-youtube-videos-training-data-copyright\" target=\"_blank\" rel=\"noreferrer noopener\">The Verge<\/a>.&nbsp;<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">El <em>pack<\/em> de datos pertenece a la colecci\u00f3n de c\u00f3digo abierto The Pile&nbsp;<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">En todo caso, este conjunto de datos forma parte de una colecci\u00f3n de c\u00f3digo abierto m\u00e1s grande, denominada <a href=\"https:\/\/arxiv.org\/pdf\/2101.00027\" target=\"_blank\" rel=\"noreferrer noopener\">The Pile<\/a>, creada por la organizaci\u00f3n sin \u00e1nimo de lucro Eleuther IA. En ella, adem\u00e1s de v\u00eddeos de YouTube, se incluye contenido en abierto y al que puede acceder cualquier persona del Parlamento Europeo o de la Wikipedia en ingl\u00e9s, entre otros.&nbsp;<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Las firmas implicadas niegan haber cometido irregularidades&nbsp;<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Apple, Nvidia, Anthropic y Salesforce reflejan en sus documentos de investigaci\u00f3n y publicaciones que utilizaron The Pile para entrenar la IA. En el caso de Apple, para entrenar OpenELM, un modelo lanzado en abril semanas antes de que la compa\u00f1\u00eda anunciara que a\u00f1adir\u00eda nuevas capacidades de IA a los iPhone y MacBook. Sin embargo, Apple ha aclarado, seg\u00fan se recoge en <a href=\"https:\/\/9to5mac.com\/2024\/07\/17\/apple-intelligence-openelm-training-youtube\/\" target=\"_blank\" rel=\"noreferrer noopener\">9to5mac<\/a>, que no utiliz\u00f3 el modelo OpenELM para potenciar ninguna de sus funciones de IA, sino que lo cre\u00f3 para fines de investigaci\u00f3n con la idea de, en el futuro, avanzar en el desarrollo de un gran modelo de lenguaje de c\u00f3digo abierto.&nbsp;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Por su parte, Anthropic y Salesforce afirman que han usado The Pile, en la que se incluyen subt\u00edtulos de v\u00eddeos de YouTube de miles de cuentas. Sin embargo, niegan que hayan cometido irregularidades.&nbsp;<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">El CEO de YouTube ya advirti\u00f3 que el uso de los v\u00eddeos viola sus t\u00e9rminos&nbsp;<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Sin duda, la plataforma de v\u00eddeos en <em>streaming<\/em> gratuita de Google es una mina de oro para el entrenamiento de IA no s\u00f3lo por las transcripciones, tambi\u00e9n por sus audios, v\u00eddeos o im\u00e1genes. Su CEO, Neal Mohan, hace poco aseguraba que las compa\u00f1\u00edas que usaban sus v\u00eddeos violan sus t\u00e9rminos y condiciones. Con esta investigaci\u00f3n, queda constancia de que al menos cuatro empresas lo han hecho, aunque tambi\u00e9n se ha mencionado a Bloomberg y Databricks como usuarias del <em>pack<\/em> de datos.&nbsp;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Fuentes: Proof News, Wired, The Verge&nbsp;<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Se ha descubierto que 173.000 transcripciones de v\u00eddeos de Youtube se han utilizado sin permiso para entrenar modelos de IA.<\/p>\n","protected":false},"author":4,"featured_media":6119,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_acf_changed":false,"footnotes":""},"categories":[2],"tags":[33,41],"class_list":["post-6115","post","type-post","status-publish","format-standard","has-post-thumbnail","category-noticias","tag-inteligencia-artificial","tag-youtube"],"acf":[],"_links":{"self":[{"href":"https:\/\/www.safecreative.org\/tips\/es\/wp-json\/wp\/v2\/posts\/6115","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.safecreative.org\/tips\/es\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.safecreative.org\/tips\/es\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.safecreative.org\/tips\/es\/wp-json\/wp\/v2\/users\/4"}],"replies":[{"embeddable":true,"href":"https:\/\/www.safecreative.org\/tips\/es\/wp-json\/wp\/v2\/comments?post=6115"}],"version-history":[{"count":4,"href":"https:\/\/www.safecreative.org\/tips\/es\/wp-json\/wp\/v2\/posts\/6115\/revisions"}],"predecessor-version":[{"id":11964,"href":"https:\/\/www.safecreative.org\/tips\/es\/wp-json\/wp\/v2\/posts\/6115\/revisions\/11964"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.safecreative.org\/tips\/es\/wp-json\/wp\/v2\/media\/6119"}],"wp:attachment":[{"href":"https:\/\/www.safecreative.org\/tips\/es\/wp-json\/wp\/v2\/media?parent=6115"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.safecreative.org\/tips\/es\/wp-json\/wp\/v2\/categories?post=6115"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.safecreative.org\/tips\/es\/wp-json\/wp\/v2\/tags?post=6115"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}