SAFE CREATIVE · CREATORS

Noticias

Estudio sobre los datasets de Unsplash plantea dudas más allá del copyright

Un estudio reciente de la Universidad de Lausanne analiza cómo el comportamiento de los creadores cambia al descubrir que sus obras se utilizan como datos de entrenamiento para inteligencia artificial (IA).

Se centran en concreto en Unsplash, una plataforma muy conocida donde encontrar imágenes de uso libre y de alta calidad. Cuentan con cerca de 6 millones de fotos e ilustraciones. Aunque en sus inicios sólo contenían fotografías y éstas podían descargarse con una licencia muy permisiva, desde octubre de 2022 tienen también un servicio de suscripción de pago. Los colaboradores en este programa, Unsplash+, pueden recibir una compensación monetaria por el uso de sus obras, y la licencia de uso es más restrictiva. Por ejemplo, prohíbe explícitamente que se use la obra para entrenamiento de inteligencia artificial.

Dos conjuntos para entrenamiento de IA lanzados en 2020

En verano de 2020, Unsplash lanzó un programa de investigación de IA. Liberaron un conjunto de datos de 250.000 imágenes de «naturaleza» y «obras destacadas» llamado LITE, y otro conjunto con todas las imágenes que había hasta la fecha en la plataforma. El conjunto LITE permite usos comerciales; el completo, no. El set de datos no contiene las imágenes en sí, sino enlaces e información valiosa sobre cada imagen para entrenamiento de modelos: palabras clave, colores…

Unsplash informó a los colaboradores suscritos a su boletín de este lanzamiento, en el que anunciaban también que estos sets se irían ampliando y actualizando con el tiempo. El estudio señala esto y la buena acogida del set de Unsplash dentro de la comunidad de IA para asumir que los colaboradores están al corriente de este uso de sus obras. Parece corroborarlo el hecho de que hay diferencias de comportamiento que dependen de si el set de datos contiene una o varias imágenes del colaborador.

Cambios más pronunciados entre fotógrafos profesionales

Los resultados muestran que los usuarios cuyas imágenes aparecieron en los sets de datos:

  • Abandonaban la plataforma a un ritmo más rápido de lo habitual.
  • Si se quedaban, reducían el número de subidas un 40% mensual. En el caso de colaboradores con múltiples imágenes incluidas en el dataset en lugar de una, éstos redujeron su actividad casi el doble.
  • Estos cambios de comportamiento son más pronunciados entre colaboradores profesionales y de mayor éxito en la plataforma, en términos de popularidad y engagement.

El estudio identifica como «profesionales» a colaboradores con equipo fotográfico profesional o que indican en su perfil que están disponibles para ser contratados. También señala que es tres veces más probable que un usuario cuyas imágenes se usaron en los sets de datos forme parte ahora de Unsplash+, comparado con otros usuarios. Recordamos que la licencia del programa de pago desautoriza el uso de las imágenes precisamente para entrenamiento de IA.

Es probable que las reacciones tengan motivos económicos. Observando los cambios año a año desde 2020, conforme aumenta la consciencia sobre el potencial comercial de la IA para la generación de imágenes, se observa cómo estos colaboradores reducen sus contribuciones a Unsplash.

Impacto sobre la calidad y la originalidad de las imágenes

También se observan cambios en el contenido. Lo más llamativo que destaca el estudio es una disminución significativa en la novedad de las imágenes que se suben a la plataforma. Este cambio no va ligado a cambios individuales de comportamiento, sino que parece responder más bien a una nueva composición de usuarios y los tipos de imágenes que suben.

«Nuestro análisis de contenido muestra que, a nivel individual, las cargas disminuyen en variedad pero no en novedad en comparación con el stock de imágenes existente. Sin embargo, entre los usuarios en general, la variedad de imágenes cargadas disminuyó aproximadamente un 5% en comparación con el stock existente y las imágenes cargadas fueron aproximadamente un 30% menos novedosas.»

¿Por qué esta reacción en una plataforma como Unsplash?

Unsplash es peculiar desde el punto de vista de la propiedad intelectual. Los colaboradores que comparten ahí sus obras eligen hacerlo bajo una de las licencias más permisivas que existen. Cualquiera puede descargar la imagen, transformarla y usarla en proyectos con y sin ánimo de lucro, sin necesidad de citar al autor. Sin embargo, los resultados del estudio demuestran que estos creadores modifican su comportamiento cuando sus obras se usan en un set de datos para entrenamiento de IA. Los mismos creadores que no sienten especial celo, al menos, por el copyright de las fotos concretas que suben a Unsplash.

Los cambios de conducta además no se ven reflejados en el uso de otras plataformas como Instagram. La reacción de los colaboradores puede ir unida a la percepción de la IA como una amenaza económica.

El estudio señala que, si se mantiene la tendencia, «las imágenes muy similares [a las que ya hay en Unsplash] se triplicarían en un año». Ya que los modelos de IA generativa necesitan de cantidades ingentes de obras creadas por humanos para su eficacia y calidad, esto puede tener implicaciones. A largo plazo, puede que la disponibilidad y diversidad de material para entrenamiento en Internet disminuya.

Estudios de este tipo pueden ayudar a guiar cómo sopesar los intereses de los propietarios del contenido y el avance de la innovación en IA.

Fuente: Strategic Behavior and AI Training Data

Marta Palacio
Marta Palacio
Editora y colaboradora en TIPS. Graduada en Historia del Arte, enfocada ahora en la intersección entre la creatividad humana, la realidad digital global y la inteligencia artificial. Defensora de los derechos de autor y de las obras derivadas en diversas charlas dentro de la Unión Europea.

Compartir

Artículos relacionados