SAFE CREATIVE · CREATORS

Noticias

Cómo evitar que WordPress.com y Tumblr vendan tu contenido para entrenar IA

Automattic, la empresa matriz de WordPress y Tumblr entre otros, se prepara para vender datos de usuarios a Midjourney y OpenAI. La noticia fue publicada en un informe de 404Media, tras tener acceso a conocimiento y documentación interna de la compañía.

Se desconoce el tipo de información que se venderá de cada plataforma. Los documentos muestran que se trata de un proceso «lioso y controvertido» dentro de Tumblr. Cyle Gage, product manager en Tumblr, declara lo siguiente:

«La manera en que los datos fueron consultados para el volcado de datos inicial a Midjoyrney/OpenAI implicaba compilar una lista de todas las publicaciones públicas de Tumblr entre 2014 y 2023. Desafortunadamente, también incluyó, y no debería haber sido así:

Posts privados en blogs públicos.
Posts en blogs eliminados o suspendidos.
Preguntas sin responder (suelen no ser públicas hasta que se responden).
Respuestas privadas (éstas sólo se muestran al receptor y no de forma pública).
Posts con contenido marcado como ‘explícito’, ‘NSFW’, ‘adulto’ según nuestros estándares más recientes (esto puede no ser para tanto, no lo sé).
Contenido de blogs de socios premium (el antiguo blog de música de Apple por ejemplo, que gastó dinero con nosotros en una campaña publicitaria) que pueden tener contenido creativo que no nos pertenece, y no tenemos los derechos para compartir con terceras partes; desconozco qué acuerdos existen históricamente y qué nos impiden hacer.»

El mismo día que la noticia se anunció en 404 Media, Automattic confirmó en WordPress.com y Tumblr su colaboración con proyectos de IA. La venta de datos ha levantado preocupaciones dentro y fuera de las plataformas. Por suerte, han incluido instrucciones para no participar, que los usuarios deben activar.

Cómo evitar que tu contenido de Tumblr sea rascado

Tumblr ha anunciado dar la opción a los usuarios de no participar en estos envíos de datos. La participación es opt-in por defecto, de modo que si no quieres que tu contenido se use en entrenamiento de IA tendrás que solicitarlo.

No hay un opt-out general desde la cuenta de usuario. Las dos opciones configurables de la pestaña «Privacidad» están activadas por defecto y son «dejar que otros vean si estás activo» y «dejar que Tumblr utilice tu historial de búsquedas para ofrecerte información más relevante».

Para indicar que no quieres que tu contenido se comparta con terceras partes entra en la configuración de cada blog de Tumblr que administres. Desde ahí:

  1. Busca la categoría «Visibilidad».
  2. Activa el botón «Prevent third-party sharing» (prevenir compartir con terceros).
  3. Activa también el botón «Discourage external searching» si tampoco quieres que buscadores como Google o Yahoo indexen tu blog. Si ya tenías seleccionada esta opción, la anterior te debería aparecer marcada por defecto.

Automattic ha declarado que informará con regularidad a sus partners de aquellos usuarios que opten por no participar. Solicitarán a los partners que eliminen el contenido de aquellos usuarios que hayan solicitado que se les excluya. Además, dentro de la Unión Europea y de acuerdo con la GDPR, puedes solicitar que tus datos se eliminen.

Tumblr es una plataforma de uso gratuito. Como tal, no tiene incentivos para eliminar contenido de los usuarios. Los datos incluidos por error en la query parecen reforzar que es el caso: incluyen posts de blogs eliminados o suspendidos. Por tanto, eliminar tu cuenta o tus posts es irrelevante. Pueden seguir en sus bases de datos. Si quieres asegurarte de que tu contenido no sea parte de estos acuerdos, sigue los pasos anteriores o solicita que se eliminen tus datos de acuerdo con la GDPR.

Cómo evitar que tu contenido de WordPress.com sea rascado

Si utilizas WordPress.com, el servicio de pago con hospedaje, tu contenido también puede formar parte de lo que se envía a partners para entrenar modelos de IA.

El blog oficial de WordPress.com anunció el día de la noticia en 404 Media que van a dar a sus usuarios «más control sobre el contenido que comparten». Dan las siguientes instrucciones para solicitarles que no compartan el contenido de tu blog con terceros:

  1. Entra en Configuración -> General -> Privacidad.
  2. Activa la opción «Prevent third-party data sharing» (prevenir que se compartan datos con terceros)
  3. Activa también «Discourage search engines from indexing this site» (solicitar a los buscadores que no indexen este sitio). Si ya tenías seleccionada esta opción, la anterior te debería aparecer marcada por defecto.

Es necesario configurar individualmente cada blog de WordPress.com que administres.

Automattic protege el contenido de otros crawlers de IA por defecto

Por otro lado, Automattic declaró en un comunicado oficial que protegen el contenido de los usuarios en WordPress.com y Tumblr de ser rascado por defecto. Incluyen señales que bloquean crawlers de IA y bots de servicios de búsqueda, aunque son de cumplimiento voluntario. Los únicos rascados que permiten son los de sus partners.

Marta Palacio
Marta Palacio
Editora y colaboradora en TIPS. Graduada en Historia del Arte, enfocada ahora en la intersección entre la creatividad humana, la realidad digital global y la inteligencia artificial. Defensora de los derechos de autor y de las obras derivadas en diversas charlas dentro de la Unión Europea.

Compartir

Artículos relacionados