{"id":8281,"date":"2024-12-13T07:00:00","date_gmt":"2024-12-13T06:00:00","guid":{"rendered":"https:\/\/www.safecreative.org\/tips\/es\/?p=8281"},"modified":"2025-08-18T12:57:12","modified_gmt":"2025-08-18T10:57:12","slug":"analisis-de-680-000-horas-de-audio-para-ia-revela-sesgos-e-infracciones","status":"publish","type":"post","link":"https:\/\/www.safecreative.org\/tips\/es\/analisis-de-680-000-horas-de-audio-para-ia-revela-sesgos-e-infracciones\/","title":{"rendered":"An\u00e1lisis de 680.000 horas de audio para IA revela sesgos e infracciones"},"content":{"rendered":"\n<p class=\"wp-block-paragraph\">Un <a href=\"https:\/\/arxiv.org\/html\/2410.13114v1\" target=\"_blank\" rel=\"noreferrer noopener\">trabajo de investigaci\u00f3n<\/a> en el que se han analizado 175 conjuntos de datos con los que se ha entrenado inteligencia artificial (IA) generativa para crear audios advierte que infringen la propiedad intelectual y no respetan cuestiones \u00e9ticas b\u00e1sicas. Los datos incluyen contenidos hablados, musicales y sonidos ambientales en los que se han apreciado, seg\u00fan los autores, \u00absesgos contra las mujeres, estereotipos t\u00f3xicos sobre las comunidades marginadas y cantidades significativas de obras protegidas por derechos de autor\u00bb.\u00a0<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">El estudio analiza 680.000 horas de audio&nbsp;<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Un equipo de la Universidad Carnegie Mellon de Estados Unidos, a cuyo frente se encuentra el cient\u00edfico William Agnew, ha examinado a lo largo de un a\u00f1o \u00ab680.000 horas de audio de siete plataformas y 600 investigaciones para analizar su contenido, sesgos y procedencia\u00bb, seg\u00fan recoge el diario <a href=\"https:\/\/elpais.com\/tecnologia\/2024-12-09\/la-ia-genera-audios-plagados-de-machismo-racismo-e-infracciones-de-derechos-de-autor.html\" target=\"_blank\" rel=\"noreferrer noopener\">El Pa\u00eds<\/a>.\u00a0<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">El 35% de los conjuntos de datos podr\u00edan infringir derechos de autor&nbsp;<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">En concreto, el estudio <strong><em>Sound Check: Auditing Audio Datasets<\/em> <\/strong>se\u00f1ala que:<\/p>\n\n\n\n<blockquote class=\"wp-block-quote is-layout-flow wp-block-quote-is-layout-flow\">\n<p class=\"wp-block-paragraph\">\u00abel 35% de los conjuntos de datos son potencialmente infractores de derechos de autor, lo que significa que hay al menos una parte de los datos para los que el acceso m\u00e1s all\u00e1 de la escucha privada requiere la compra de licencias\u00bb. <\/p>\n<\/blockquote>\n\n\n\n<p class=\"wp-block-paragraph\">De aqu\u00ed que los <strong>investigadores hayan desarrollado una <a href=\"https:\/\/audio-audit.vercel.app\/\" target=\"_blank\" rel=\"noreferrer noopener\">herramienta web<\/a> <\/strong>para que los interesados comprueben si sus obras forman parte de conjuntos de datos de audio populares y facilitar su exploraci\u00f3n.&nbsp;<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Los archivos incluyen grabaciones de voz, de sonido ambiental y piezas musicales&nbsp;<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">El conjunto de datos de audio revisado estaba compuesto por una amplia gama de contenidos, en su mayor\u00eda en ingl\u00e9s, como narraciones de libros de dominio p\u00fablico, lecturas de frases del diario escoc\u00e9s The Glasglow Herald, canciones tomadas de plataformas que ofrecen m\u00fasica dentro del dominio p\u00fablico, as\u00ed como v\u00eddeos de YouTube de muy corta duraci\u00f3n. Tambi\u00e9n inclu\u00edan grabaciones de sonido ambiental.\u00a0<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">El an\u00e1lisis descubre en el contenido sesgos contra las mujeres y expresiones racistas&nbsp;<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Los autores explican que al analizar el contenido encontraron que \u00ablas palabras relacionadas con <em>mujer<\/em> est\u00e1n m\u00e1s asociadas con t\u00e9rminos sobre familias y cuidado infantil\u00bb. En el caso de \u00ablas palabras relacionadas con <em>hombre<\/em>, no est\u00e1n correlacionadas con t\u00e9rminos t\u00edpicamente relacionados con el g\u00e9nero\u00bb, sino que \u00abtienen asociaciones m\u00e1s fuertes con <em>guerra<\/em> y <em>matar<\/em>\u00bb. Tambi\u00e9n detectaron miles de t\u00e9rminos racistas y discriminatorios, sobre todo, en el material procedente de la m\u00fasica. Estos hallazgos han provocado su llamamiento para que los estereotipos se aborden de forma adecuada y, como recoge El Pa\u00eds, \u00abevitar que el entrenamiento de la IA pueda generar modelos que perpet\u00faen o incluso aceleren prejuicios y concepciones distorsionadas de la realidad\u00bb.\u00a0<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Los datos tambi\u00e9n contienen material protegido por derechos de autor\u00a0<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Del mismo modo, el an\u00e1lisis descubre la presencia significativa de material con derechos de autor procedente de diversidad de artistas. \u00abMuchos conjuntos de datos de audio se extraen de fuentes con licencias que proh\u00edben la remezcla, el uso comercial o requieren atribuci\u00f3n, lo que plantea preguntas sobre el consentimiento y el cumplimiento del modelo posterior\u00bb, advierten.&nbsp;<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">El contenido de entrenamiento podr\u00eda tener implicaciones legales&nbsp;<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Aunque a\u00fan se desconoce de forma exacta el da\u00f1o potencial que pueden ocasionar las tecnolog\u00edas de audio generativo, el grupo de cient\u00edficos adelanta que \u00abeste tipo de contenido tendr\u00e1 implicaciones sociales y legales\u00bb en \u00e1mbitos como \u00abel derecho de publicidad de las personas, la desinformaci\u00f3n y la propiedad intelectual\u00bb, m\u00e1s a\u00fan si los sistemas se han entrenado con datos para los que no se ha obtenido autorizaci\u00f3n.\u00a0\u00a0\u00a0\u00a0<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">De hecho, los profesionales del audio cuentan con un recurso que permite a los creativos reservar sus derechos contra la explotaci\u00f3n de la IA generativa. Se trata de la herramienta <a href=\"https:\/\/rightsandai.com\/es\/\" target=\"_blank\" rel=\"noreferrer noopener\">Rightsandai.com<\/a> desarrollada por la Confederaci\u00f3n Internacional de Editores de M\u00fasica (ICMP), una entidad que congrega el 90% de la m\u00fasica que se publica en el mundo.\u00a0<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Recomendaciones de los investigadores para evitar da\u00f1os&nbsp;<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">En todo caso, los investigadores proponen en el marco del estudio una serie de recomendaciones para garantizar que estos da\u00f1os no est\u00e9n presentes en la futura IA de audio. Por un lado, solicitan a los desarrolladores que \u00abmejoren la documentaci\u00f3n que aportan para poder evaluar el sesgo y la representaci\u00f3n\u00bb. Por otro, que \u00abs\u00f3lo utilicen datos que permitan la remezcla y el uso comercial\u00bb, si bien se\u00f1alan que lo ideal ser\u00eda buscar \u00abel consentimiento activo e informado para el uso en IA\u00bb.&nbsp;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Fuentes: Estudio <em>Sound Check: Auditing Audio Datasets<\/em>, El Pa\u00eds&nbsp;<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Un estudio liderado por William Agnew ha destapado aspectos preocupantes sobre los conjuntos de datos de audio utilizados.<\/p>\n","protected":false},"author":4,"featured_media":8283,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_acf_changed":false,"footnotes":""},"categories":[2,48],"tags":[12,33],"class_list":["post-8281","post","type-post","status-publish","format-standard","has-post-thumbnail","category-noticias","category-tema-del-momento","tag-derechos-de-autor","tag-inteligencia-artificial"],"acf":[],"_links":{"self":[{"href":"https:\/\/www.safecreative.org\/tips\/es\/wp-json\/wp\/v2\/posts\/8281","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.safecreative.org\/tips\/es\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.safecreative.org\/tips\/es\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.safecreative.org\/tips\/es\/wp-json\/wp\/v2\/users\/4"}],"replies":[{"embeddable":true,"href":"https:\/\/www.safecreative.org\/tips\/es\/wp-json\/wp\/v2\/comments?post=8281"}],"version-history":[{"count":7,"href":"https:\/\/www.safecreative.org\/tips\/es\/wp-json\/wp\/v2\/posts\/8281\/revisions"}],"predecessor-version":[{"id":11870,"href":"https:\/\/www.safecreative.org\/tips\/es\/wp-json\/wp\/v2\/posts\/8281\/revisions\/11870"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.safecreative.org\/tips\/es\/wp-json\/wp\/v2\/media\/8283"}],"wp:attachment":[{"href":"https:\/\/www.safecreative.org\/tips\/es\/wp-json\/wp\/v2\/media?parent=8281"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.safecreative.org\/tips\/es\/wp-json\/wp\/v2\/categories?post=8281"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.safecreative.org\/tips\/es\/wp-json\/wp\/v2\/tags?post=8281"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}