Cognition exageró las capacidades de su IA, Devin

Con tanta IA generativa de música, texto, ilustraciones… a veces nos olvidamos de que los programas informáticos también son obras protegibles por derechos de autor.

Relacionado: Protección de programas informáticos y bases de datos en México

En este ámbito, han ido apareciendo proyectos que proponen soluciones integrales, capaces de desarrollar programas enteros. Surgen cuestiones de todo tipo, las más urgentes sobre seguridad, pero también sobre propiedad intelectual. No está claro a quién pertenecerían los derechos de aplicaciones generadas por completo por IA. Según algunos especialistas y de acuerdo a la legislación actual en Europa, por ejemplo, puede que a nadie.

Cognition Labs anunció el mes pasado a Devin como «la primera IA ingeniera de software». El vídeo de la presentación lleva 1 millón de visualizaciones en YouTube. A diferencia de otros modelos capaces de producir código, que ayudan o acompañan a los desarrolladores en su trabajo, Devin destaca por actuar como un agente, dicen, «autónomo». Tiene su propia consola, editor de código y navegador para resolver tareas en modo «manos libres».

Today we're excited to introduce Devin, the first AI software engineer.

Devin is the new state-of-the-art on the SWE-Bench coding benchmark, has successfully passed practical engineering interviews from leading AI companies, and has even completed real jobs on Upwork.

Devin is… pic.twitter.com/ladBicxEat
— Cognition (@cognition_labs) March 12, 2024

En el anuncio en X (Twitter), Cognition declaraba que Devin había completado trabajos reales en Upwork, superado con éxito entrevistas para puestos de ingeniería en empresas líderes en IA, y que resuelve errores en repositorios abiertos de GitHub sin ayuda en un 13’86% de los casos.

Todas estas declaraciones se están poniendo en duda tras una publicación en el canal de YouTube Internet of Bugs. Aunque hace un mes, otros desarrolladores ya se cuestionaba si Cognition Labs podría estar exagerando o haciendo cherry picking:

«La mayoría de las preguntas de las entrevistas de trabajo no son difíciles de resolver; hasta ChatGPT puede.»
(Bindu Reddy)

Un vídeo del canal Volo muestra cómo recrear la demo de Devin con ChatGPT. También señala que en el índice de referencia que usa Cognition, SWE-bench, Llama supera a GPT-4, lo cual es raro. Y la comparación no es justa: Devin combina varias herramientas, no es un modelo como los demás. Otros apuntan que Devin se aplicó sobre un subset concreto de SWE-bench, con problemas más sencillos.

(La comparativa de resultados que aparece en el vídeo y en cognition-labs.com)

Aunque no se encuentra disponible en abierto, unos pocos programadores han tenido acceso y compartido sus impresiones. Varios comentan que es lento y se atasca, pero la impresión general es positiva, con matices:

«Siento que Devin es UI/UX-first, no AI-first. No sé si eso tiene sentido. La IA es un componente fundamental, pero la infraestructura que la rodea es la estrella.»
(Andrew Gao)

Detalles importantes en la presentación y promoción de Devin

Carl, el youtuber detrás de Internet of Bugs, analiza en detalle el vídeo de Cognition donde muestran a Devin resolviendo un trabajo real de Upwork. El proyecto elegido para la demostración es uno de visión por computadora: el cliente quiere realizar inferencias con los modelos del repositorio roadDamageDetection2020.

Walden Yan, director de producto de Cognition, copia y pega la solicitud. No incluye bien los requisitos específicos, puede que a idea para que la tarea sea más sencilla.

En resumen, hay 3 aspectos de la demostración que llevan a engaño:

Se da a entender que Devin encuentra y arregla errores en un repositorio de GitHub, cuando no es cierto.
Da la sensación de que Devin ha sido capaz de resolver una larga lista de tareas complejas. Walden presenta el proyecto diciendo que «parece muy difícil de configurar». La solución en realidad es simple. Al menos lo es si, como Devin, no se tienen en cuenta los requisitos específicos del cliente. Basta con leer la documentación del repositorio.
El vídeo dura 2 minutos, pero si se observa el tiempo transcurrido en el chat de Devin han pasado varias horas.

El error que «resuelve» Devin es uno generado por la propia IA

En el vídeo aparece un error en un fichero llamado update_image_ids.py. Al consultar GitHub, se puede comprobar que éste no existe en el repositorio original. Ni nada que se le parezca. Es un fichero creado por Devin con código que es, en palabras de Carl «un sinsentido» y que «crea más problemas de los que resuelve».

Es decir: lo que se presenta como Devin resolviendo un error humano es en realidad la IA enredándose.

Se exagera la complejidad del problema y se miente sobre la eficacia de Devin

Una de las características de Devin es que crea una lista de tareas a completar. Al verla, da la sensación de que ha resuelto un problema complejo con varios pasos difíciles. Carl, que se grabó completando el mismo trabajo de Upwork para comparar, muestra que la tarea podía resolverse en poco más de media hora. Posiblemente unas doce veces más rápido que Devin. Lo más costoso es instalar el entorno; el trabajo en sí es cosa de dos comandos.

También descubre en el proceso que uno de los problemas que Devin intenta resolver aparece bien explicado en las instrucciones del repositorio. Y que sí había un error en éste (no detectado por Devin), que se resuelve con una búsqueda de un minuto en Google.

El cliente detrás de la oferta de trabajo ha publicado una vídeo respuesta. Explica que Devin no resolvió lo que pedía o, al menos, no de la manera esperable. Si hubiera tenido que resolver la tarea real, con los requisitos concretos del cliente, ésta se vuelve más compleja. Lo más seguro es que Devin no la hubiera podido realizar, y por eso se copió el encargo a medias en la demo.

Esto no sorprende mucho si se ha utilizado IA generativa para programar: la mayoría de outputs no pueden aprovecharse sin criterio. No se pueden implementar sin revisar y editar, y a veces son del todo inservibles. Ignoran contexto y arquitectura, no optimizan, no observan buenas prácticas, toman decisiones extrañas… Pueden ser útiles, pero no están listas para usarse de forma autónoma. Anunciar lo contrario genera falsas expectativas y puede traer riesgos.

Llamada al escepticismo

Sin conocimientos técnicos es imposible darse cuenta de esto. Hasta la publicación del vídeo de Internet of Bugs, los comentarios en la demostración eran, con pocas excepciones, de curiosidad, interés y nerviosismo.

Anuncios y vídeos como éstos y los titulares que les han dado eco desinforman y hacen creer que la IA generativa es mucho más potente de lo que es actualmente. Las exageraciones han desembocado en titulares que han llegado a bautizar a Devin como «la primera AGI» (inteligencia artificial general).

Puede que declaraciones así empiecen a aparecer más y más conforme vayan apareciendo otros AI agents. Conviene diferenciar. Devin no es la primera AGI, sino un programa que funciona como un agente de IA. Un agente, a diferencia de un modelo, puede realizar tareas específicas utilizando varias herramientas. Un agente está especializado. En el caso de Devin, está diseñado para escribir y depurar código. Una AGI sería capaz de aplicar sus conocimientos de manera tan general como un humano, razonando para solucionar cualquier tipo de tarea.

No poner en duda los anuncios de las tecnológicas y los titulares de Internet puede traer consecuencias graves en un momento en el que la IA y sus outputs empiezan a colarse en sitios donde no deberían. Textos generados por IA están apareciendo en publicaciones revisadas por expertos, investigaciones, informes jurídicos… En una publicación reciente del Yale Journal of Biology and Medicine, se plantea si es viable usar ChatGPT para revisar artículos académicos. La confianza es alarmante. Dar a entender que se puede usar IA para generar y desplegar código de forma autónoma puede suponer serios problemas de seguridad.

Cognition Labs pedía una valoración de 2 billones de dólares

La presentación inicial de Cognition Labs contiene pruebas anecdóticas y datos sesgados que dan una imagen falsa. El sensacionalismo puede haber dañado su credibilidad.

Que se sepa, Cognition no ha desarrollado un modelo de IA propio; es decir, que el Devin actual es posiblemente ChatGPT-4 y otras APIs debajo de una gabardina. Ahora que el foco está puesto en los AI agents, irán apareciendo más propuestas de este tipo: IA y otras herramientas agrupadas en un entorno fácil de usar. Ya hay incluso una alternativa a Devin de código abierto que, según sus propios tests, funciona mejor que Devin.

A principios de mes Cognition estaba buscando una valoración de hasta 2 billones de dólares. Muchos medios señalan que podríamos estar ante una burbuja como la burbuja puntocom.

Fuentes: Cognition, Internet of Bugs, Computer vision engineer, AI Explained

Índice [hide]