{"id":3403,"date":"2024-03-27T15:55:08","date_gmt":"2024-03-27T14:55:08","guid":{"rendered":"https:\/\/www.safecreative.org\/tips\/es\/?p=3403"},"modified":"2025-08-21T09:40:33","modified_gmt":"2025-08-21T07:40:33","slug":"models-all-the-way-down-estudio-sobre-ia-generativa-de-imagenes","status":"publish","type":"post","link":"https:\/\/www.safecreative.org\/tips\/es\/models-all-the-way-down-estudio-sobre-ia-generativa-de-imagenes\/","title":{"rendered":"Models all the way down: estudio sobre IA generativa de im\u00e1genes"},"content":{"rendered":"\n<p><a href=\"https:\/\/knowingmachines.org\/\" target=\"_blank\" rel=\"noreferrer noopener\">Knowing Machines<\/a> acaba de publicar un estudio titulado <em><a href=\"https:\/\/knowingmachines.org\/models-all-the-way\" target=\"_blank\" rel=\"noreferrer noopener\">Models all the way down,<\/a><\/em> de Christo Buschek y Jer Thorp. En \u00e9l, explican c\u00f3mo se entrenan los modelos de IA que necesitan grandes cantidades de im\u00e1genes, como Midjourney o Stable Diffusion. Lo hacen analizando <a href=\"https:\/\/laion.ai\/blog\/laion-5b\/\" target=\"_blank\" rel=\"noreferrer noopener\">LAION-5B<\/a>, un set de datos de im\u00e1genes p\u00fablico. <\/p>\n\n\n\n<p>El art\u00edculo visual original presenta el contenido poco a poco y con ejemplos animados, en un largo <em>scroll.<\/em> Aqu\u00ed resumimos algunos de los puntos clave.<\/p>\n\n\n\n<p>El estudio se divide en 5 partes: <\/p>\n\n\n\n<ol class=\"wp-block-list\">\n<li>Presentaci\u00f3n de LAION-5B, un conjunto de datos de im\u00e1genes muy conocido y de uso extendido.<\/li>\n\n\n\n<li>C\u00f3mo obtiene LAION-5B las im\u00e1genes y la informaci\u00f3n que las describe.<\/li>\n\n\n\n<li>Problemas detectados en cuanto a representaci\u00f3n de diferentes idiomas y culturas en los datos.<\/li>\n\n\n\n<li>C\u00f3mo se determina el criterio est\u00e9tico en las im\u00e1genes de los modelos.<\/li>\n\n\n\n<li>Contenido no autorizado o inapropiado: se necesita transparencia para poder auditar estos sistemas.<\/li>\n<\/ol>\n\n\n\n<h2 class=\"wp-block-heading\">Parte 1. LAION-5B<\/h2>\n\n\n\n<p>Ya se sabe que para entrenar IA generativa se necesitan inmensas bases de datos. De tal magnitud que ser\u00eda inviable comprobar lo que contienen, o seleccionar el contenido a mano.<\/p>\n\n\n\n<p>Los modelos de IA generativa, incluyendo los modelos m\u00e1s populares que se comercializan, suelen utilizar conjuntos de datos disponibles de forma gratuita. Uno de ellos es LAION-5B, con <strong>5&#8217;85 billones de im\u00e1genes,<\/strong> lanzado en 2022 por <a href=\"https:\/\/laion.ai\">LAION<\/a>. \u00c9sta es una organizaci\u00f3n sin \u00e1nimo de lucro alemana con fines de investigaci\u00f3n. El set de datos es p\u00fablico, pero sus creadores advierten: <\/p>\n\n\n\n<blockquote class=\"wp-block-quote is-layout-flow wp-block-quote-is-layout-flow\">\n<p>\u00abNo recomendamos su uso para crear productos industriales listos para su lanzamiento, ya que la investigaci\u00f3n b\u00e1sica sobre las propiedades generales y la seguridad de estos modelos a gran escala, que nos gustar\u00eda fomentar con este lanzamiento, est\u00e1 a\u00fan en curso.\u00bb<\/p>\n<cite>(LAION.ai)<\/cite><\/blockquote>\n\n\n\n<p>Uno de los posibles usos de LAION-5B es para entrenamiento de IA generativa de im\u00e1genes. Midjourney y Stable Diffusion, entre otros, lo utilizan. El estudio observa que este inmenso set contiene im\u00e1genes inapropiadas, como CSAM (material de abuso sexual infantil). La organizaci\u00f3n reconoce que los filtros autom\u00e1ticos para detectar y eliminar contenido son imperfectos.<\/p>\n\n\n\n<p>Relacionado: <a href=\"https:\/\/laion.ai\/notes\/laion-maintanence\/\" target=\"_blank\" rel=\"noreferrer noopener\">LAION-5B se encuentra deshabilitado <\/a>actualmente, tras un <a href=\"https:\/\/cyber.fsi.stanford.edu\/news\/investigation-finds-ai-image-generation-models-trained-child-abuse\" target=\"_blank\" rel=\"noreferrer noopener\">estudio de Stanford University que inform\u00f3 sobre la presencia de cientos de im\u00e1genes con CSAM<\/a>. <\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Parte 2. Ver como un modelo<\/h2>\n\n\n\n<p>\u00bfC\u00f3mo controlar entonces lo que contienen estos sets de datos? Knowing Machines parte de intentar entender c\u00f3mo se recopila y clasifica la informaci\u00f3n. <\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Common Crawl<\/h3>\n\n\n\n<p>LAION-5B est\u00e1 construido en base a otro <em>dataset<\/em> de una organizaci\u00f3n sin \u00e1nimo de lucro: <a href=\"https:\/\/commoncrawl.org\">Common Crawl.<\/a> Se trata de un repositorio libre y gratuito de datos extra\u00eddos mediante <em>web crawl<\/em> (rastreo web). El rastreo web recopila informaci\u00f3n autom\u00e1ticamente, a trav\u00e9s de <em>bots.<\/em><\/p>\n\n\n\n<p>Relacionado: <a href=\"https:\/\/www.safecreative.org\/tips\/es\/dos-medidas-para-que-los-bots-no-accedan-al-contenido-de-tu-web\/\" target=\"_blank\" rel=\"noreferrer noopener\">Dos medidas para que los bots no accedan al contenido de tu web<\/a><\/p>\n\n\n\n<p>Algunos sitios web aparecen m\u00e1s que otros. Destacan por ejemplo Pinterest (155 millones de im\u00e1genes con sus descripciones), Shopify (140 millones) y SlidePlayer (72 millones).<\/p>\n\n\n\n<p>Common Crawl busca en el HTML de los sitios web el atributo <code>alt<\/code> de las im\u00e1genes. Este atributo est\u00e1 pensado para contener una descripci\u00f3n de la imagen, una alternativa para que usuarios con problemas de visi\u00f3n puedan acceder al contenido. Sin embargo, suele utilizarse para contener otra informaci\u00f3n. Tanto Pinterest como Shopify y SlidePlayer a\u00f1aden texto <code>alt<\/code> a sus im\u00e1genes. Pero en Shopify por ejemplo se usa para meter palabras clave para aparecer en resultados de b\u00fasqueda, no para describir la imagen a una persona que no pueda verla.<\/p>\n\n\n\n<p>Por tanto, el texto en <code>alt<\/code> no es de fiar. Para resolver este problema, investigadores de OpenAI desarrollaron una red neuronal llamada <a href=\"https:\/\/openai.com\/research\/clip\" target=\"_blank\" rel=\"noreferrer noopener\">CLIP (Contrastive Language-Image Pre-training).<\/a> \u00c9sta punt\u00faa si el texto describe adecuadamente la imagen o no. Hace esto contrastando con sets de datos de referencia como <a href=\"https:\/\/image-net.org\" target=\"_blank\" rel=\"noreferrer noopener\">ImageNet-1K.<\/a> La puntuaci\u00f3n va de 0 a 1: si un par de imagen+texto punt\u00faa m\u00e1s de 0&#8217;26-0&#8217;28, se incluye en LAION.<\/p>\n\n\n\n<p>Knowing Machines apunta que, en proporci\u00f3n, <strong>muy pocas im\u00e1genes punt\u00faan m\u00e1s de 0&#8217;5.<\/strong> Una puntuaci\u00f3n muy alta en CLIP suele significar que la imagen contiene texto, y que \u00e9ste aparece literalmente en la etiqueta <code>alt<\/code>. La mayor\u00eda de im\u00e1genes est\u00e1 por debajo de 0&#8217;5, y mover el criterio una cent\u00e9sima arriba o abajo incluye o excluye millones de im\u00e1genes. El criterio exacto, c\u00f3mo se asignan las puntuaciones, se desconoce. Las redes neuronales como CLIP son notoriamente complejas, por lo que a veces se dice que son \u00abcajas negras\u00bb. <\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Cajas negras en cadena<\/h3>\n\n\n\n<p>Un patr\u00f3n emerge: para entrenar modelos del tama\u00f1o que se utiliza hoy en d\u00eda, se necesita depender de otros modelos. Cajas negras seguidas de cajas negras. Y la responsabilidad de auditar los modelos se deja \u00abpara que lo resuelvan otros\u00bb.<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li>LAION-5B utiliz\u00f3 CLIP, que se entren\u00f3 con un <em>set<\/em> de datos desconocido por el estudio.<\/li>\n\n\n\n<li>Para decidir qu\u00e9 im\u00e1genes est\u00e1n bien descritas en sus textos <code>alt<\/code>, LAION se bas\u00f3 en otros <em>sets<\/em> referentes como ImageNet-1K.<\/li>\n\n\n\n<li>El \u00abest\u00e1ndar\u00bb para estos <em>sets<\/em> que se usan de referencia lo asent\u00f3 una red neuronal de uso extendido llamada <a href=\"https:\/\/datagen.tech\/guides\/computer-vision\/resnet-50\/\" target=\"_blank\" rel=\"noreferrer noopener\">ResNet-50.<\/a> <\/li>\n<\/ul>\n\n\n\n<p>Esta \u00faltima red neuronal se introdujo en 2015 en el paper <em><a href=\"https:\/\/openaccess.thecvf.com\/content_cvpr_2016\/papers\/He_Deep_Residual_Learning_CVPR_2016_paper.pdf\" target=\"_blank\" rel=\"noreferrer noopener\">\u00abDeep Residual Learning for Image Recognition\u00bb<\/a><\/em>. Aunque los datos de entrenamiento de CLIP se desconocen, OpenAI compara sus resultados con los de ResNet-50. <\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Parte 3. Representaci\u00f3n idiom\u00e1tica y cultural<\/h2>\n\n\n\n<p>Al usar LAION, hay 3 <em>subsets<\/em> de datos principales entre los que elegir. Las im\u00e1genes se han dividido seg\u00fan el idioma detectado en el texto que las describe: ingl\u00e9s (laion2b-en), no-ingl\u00e9s (laion2b-multi), y desconocido (laion1b-nolang).<\/p>\n\n\n\n<p>LAION-5B contiene m\u00e1s datos en ingl\u00e9s y en culturas de habla inglesa que en los dem\u00e1s 107 idiomas combinados. No sorprende: 45% de las p\u00e1ginas de Common Crawl son contenido en ingl\u00e9s. La falta de diversidad de los datos puede tener consecuencias negativas inesperadas al utilizarse para entrenar modelos. Es un problema recurrente en los sistemas de categorizaci\u00f3n que emplean IA, sobre el que ya han dado la voz de alarma investigadoras como Joy Buolamwini (<a href=\"https:\/\/www.ajl.org\" target=\"_blank\" rel=\"noreferrer noopener\">Algorithmic Justice League<\/a>) y Julia Angwin (<em><a href=\"https:\/\/www.propublica.org\/article\/machine-bias-risk-assessments-in-criminal-sentencing\" target=\"_blank\" rel=\"noreferrer noopener\">Machine Bias<\/a><\/em>).<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Parte 4. LAION-Aesthetics<\/h2>\n\n\n\n<p>Los investigadores detr\u00e1s de LAION creen que la falta de representaci\u00f3n actual en su modelo es salvable, y trabajan en nuevos <em>sets<\/em> para diferentes prop\u00f3sitos. Otro <em>subset<\/em> de LAION-5B es <a href=\"https:\/\/laion.ai\/blog\/laion-aesthetics\/\" target=\"_blank\" rel=\"noreferrer noopener\">LAION-Aesthetics,<\/a> que contiene im\u00e1genes \u00abde alta calidad visual\u00bb. Es utilizado por ejemplo por Midjourney y Stable Diffusion.<\/p>\n\n\n\n<p>De nuevo:<strong> \u00bfc\u00f3mo se decide lo que es \u00abalta calidad visual\u00bb?<\/strong> Ninguno de estos filtros, ni el de los textos <code>alt<\/code> ni \u00e9ste, son manuales. El modelo para filtrar y construir LAION-Aesthetics se entren\u00f3 con 3 fuentes: con LAION-Logos (15.000 logos) y 2 conjuntos de im\u00e1genes que humanos han calificado de \u00abvisualmente atractivas\u00bb.<\/p>\n\n\n\n<p>Estos conjuntos son: <a href=\"https:\/\/github.com\/JD-P\/simulacra-aesthetic-captions\" target=\"_blank\" rel=\"noreferrer noopener\">Simulacra Aesthetic Captions (SAC)<\/a> y 250.000 fotograf\u00edas con buenas valoraciones del sitio web <a href=\"https:\/\/www.dpchallenge.com\" target=\"_blank\" rel=\"noreferrer noopener\">dpchallenge.com<\/a> (digital photography challenge). El <em>set<\/em> de fotograf\u00edas se conoce como <a href=\"https:\/\/github.com\/imfing\/ava_downloader\" target=\"_blank\" rel=\"noreferrer noopener\">Aesthetic Visual Analysis (AVA)<\/a> dataset.<\/p>\n\n\n\n<p>Quienes valoran la est\u00e9tica, en ambos casos, encajan dentro de lo que los creadores del conjunto SAC llaman <em>\u00abWEIRD\u00bb: western, educated, industrialized, rich, democratic<\/em> (personas occidentales, educadas, industrializadas, ricas y democr\u00e1ticas). En el caso de SAC son creadores de arte con IA, y en el de dpchallenge, aficionados a la fotograf\u00eda de mediana edad. De estos \u00faltimos, el 95% de los que comparten su ubicaci\u00f3n son estadounidenses, canadienses o europeos, pero sobre todo norteamericanos. <\/p>\n\n\n\n<p>El modelo, que eval\u00faa la calidad est\u00e9tica, se aplic\u00f3 sobre los 2&#8217;3 billones de im\u00e1genes del <em>set<\/em> en ingl\u00e9s, para producir <em>subsets<\/em> con diferentes niveles de calidad. El <strong>criterio est\u00e9tico<\/strong> que se aplica es, por tanto, el de <strong>peque\u00f1os grupos demogr\u00e1ficos<\/strong> con caracter\u00edsticas muy particulares.  <\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Parte 5. Derechos de autor y seguridad<\/h2>\n\n\n\n<p>LAION-5B ofrece una puntuacion seg\u00fan lo probable que es que una imagen contenga una marca de agua, o contenido inapropiado. Como apunt\u00e1bamos en la parte 1, la puntuaci\u00f3n se genera a trav\u00e9s de modelos creados por LAION que seg\u00fan los investigadores \u00abno son perfectos\u00bb.<\/p>\n\n\n\n<p>Sin embargo, LAION es un proyecto de investigaci\u00f3n. Advierten de los problemas de sus <em>sets,<\/em> y son una de las excepciones de transparencia en el mundo de la IA. El estudio de knowingmachines.org ha sido posible gracias a que los <em>sets<\/em> son p\u00fablicos. <\/p>\n\n\n\n<p>El estudio termina haciendo un llamamiento a la <strong>transparencia, como una medida imprescindible<\/strong> para entender estas herramientas y sus impactos.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>\u00abModels all the way down\u00bb es un reciente estudio de Knowing Machines sobre el entrenamiento de IA generativa de im\u00e1genes.<\/p>\n","protected":false},"author":5,"featured_media":3419,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_acf_changed":false,"footnotes":""},"categories":[2,48],"tags":[33],"class_list":{"0":"post-3403","1":"post","2":"type-post","3":"status-publish","4":"format-standard","5":"has-post-thumbnail","7":"category-noticias","8":"category-tema-del-momento","9":"tag-inteligencia-artificial"},"acf":[],"_links":{"self":[{"href":"https:\/\/www.safecreative.org\/tips\/es\/wp-json\/wp\/v2\/posts\/3403","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.safecreative.org\/tips\/es\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.safecreative.org\/tips\/es\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.safecreative.org\/tips\/es\/wp-json\/wp\/v2\/users\/5"}],"replies":[{"embeddable":true,"href":"https:\/\/www.safecreative.org\/tips\/es\/wp-json\/wp\/v2\/comments?post=3403"}],"version-history":[{"count":11,"href":"https:\/\/www.safecreative.org\/tips\/es\/wp-json\/wp\/v2\/posts\/3403\/revisions"}],"predecessor-version":[{"id":12458,"href":"https:\/\/www.safecreative.org\/tips\/es\/wp-json\/wp\/v2\/posts\/3403\/revisions\/12458"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.safecreative.org\/tips\/es\/wp-json\/wp\/v2\/media\/3419"}],"wp:attachment":[{"href":"https:\/\/www.safecreative.org\/tips\/es\/wp-json\/wp\/v2\/media?parent=3403"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.safecreative.org\/tips\/es\/wp-json\/wp\/v2\/categories?post=3403"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.safecreative.org\/tips\/es\/wp-json\/wp\/v2\/tags?post=3403"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}