SAFE CREATIVE · CREATORS

Noticias

Alia, el ChatGPT español, podría cumplir las normas de derechos de autor

En septiembre estará disponible el primer modelo de lenguaje de inteligencia artificial (IA) en España. Alia, conocido como el ChatGPT español, se está entrenando en colaboración con IBM con 175 millones de «parámetros» en castellano y las lenguas cooficiales. El objetivo es eludir incidencias debidas a la calidad de los datos, la generación de sesgos y respetar los derechos de autor de las obras de las que se extraen. 

Al proyecto, desarrollado en colaboración el Centro de Supercomputación de Barcelona (BSC) aportando su capacidad de computación con el superordenador Mare Nostrum, se han sumado ahora 15 instituciones. Entre ellas, se encuentran el Instituto Cervantes, la Real Academia Española (RAE), las academias de las lenguas vasca, gallega y valenciana, el Institut d’Estudis Catalans, así como la Biblioteca Nacional, que conserva el corpus documental más grande en castellano y en lenguas cooficiales. También está previsto agregar el material de las Academias de la Lengua de América Latina. 

Garantizar seguridad, calidad y anonimato 

El objetivo es realizar el seguimiento del modelo de gobernanza de datos y corpus que han acordado para garantizar a los usuarios de Alia estándares de seguridad, anonimato, calidad, interoperabilidad y reutilización de los datos. 

Cumplir con la regulación de los derechos de autor 

Se prevé que Alia llegue a manejar un mínimo de cuatro millones de palabras para generar un modelo de IA con 175 millones de parámetros. La Agencia Española de Supervisión de la Inteligencia Artificial (AESIA) certificará estos parámetros de forma abierta y transparente, y «con estricto respeto a los derechos de los autores», aseguran desde el Ministerio para la Transformación Digital y de la Función Pública. 

Transparencia respecto al entrenamiento del modelo 

La iniciativa se enmarca dentro de la nueva Estrategia de Inteligencia Artificial para 2024-2025, que ha acaba de presentar el Gobierno español. La intención del ejecutivo es hacer pública la información relativa a Alia para que se conozca desde la composición de los corpus hasta los entrenamientos realizados, pasando por la estructura de los modelos y los recursos que se han utilizado. 

Un 20% del corpus inicial en español 

Según el ministerio, en Alia se va a conseguir que «el 20% del corpus inicial de la herramienta sean datos en español, porque los LLM existentes hasta ahora apenas llegan al 5% de datos en nuestro idioma». Explica que para utilizar la IA a nivel profesional y público, cuando se cuenta con un modelo entrenado sobre todo en inglés, presenta sesgos importantes al traducir las respuestas que ofrece la IA generativa. «Queremos utilizar, otras bases de datos, otros textos que están genuinamente en castellano, en catalán o en euskera, y es lo que estamos trabajando, por ejemplo, en la Rioja donde está el mayor repositorio de artículos científicos de castellano», según recoge Merca2.  

En el entrenamiento futuro de la IA española no descartan que se incorporen los datos de fuentes como la Academia de la Historia, los grandes grupos de comunicación o los fondos de RTVE y todas aquellas instituciones que guarden información de calidad en español. 

Fuentes: Mineco, Merca2 

Safe Creative
Safe Creativehttps://www.safecreative.org/
Safe Creative es el mayor registro electrónico de propiedad intelectual en línea. La inscripción de la autoría en Safe Creative proporciona al autor una prueba tecnológica irrefutable de su declaración y la consiguiente protección de sus derechos (Convenio de Berna - ONU). Resulta muy aconsejable el registro de una obra antes de darla a conocer, para tener asentada una primera prueba declarativa de su autoría. Al publicar el trabajo o mostrar versiones previas es posible hacerlo con mayor tranquilidad, sabiendo que se dispone de la mejor prueba en el tiempo frente a quien pudiera estar tentado de atribuirse éste como propio.

Compartir

Artículos relacionados