¿No seremos reemplazados? Crearon una empresa dependiente de la IA y el experimento no salió bien

Todo apuntaba a que 2025 iba a ser el año de los agentes IA y, para comprobarlo, unos investigadores hicieron un curioso experimento: pusieron a varios de estos agentes a trabajar en una empresa ficticia. No salió muy bien.

El estudio fue realizado por investigadores de la Universidad Carnegie Mellon y buscaba medir la efectividad de los agentes IA. En él, crearon un entorno que simulaba ser una pequeña empresa dedicada al desarrollo de software.

Los agentes IA que pusieron a trabajar incluían modelos de Google, OpenAI, Meta y Anthropic. Se les asignaron roles como analista financiero, project manager o ingeniería de software. También se crearon un director de tecnología y un responsable de recursos humanos a los que cada agente IA podía contactar en caso de necesitarlo. Entre las tareas que debían hacer estaba escribir código, buscar en internet, abrir programas u organizar datos en hojas de cálculo. Bastante típico en una empresa de estas características.

Los resultados: La medalla de empleado del mes se la llevó Anthropic y su modelo Claude 3.5 Sonnet. Pero, aunque fue el mejor, solamente logró completar el 24% de las tareas que se le asignaron. Gemini 2.0 Flash y ChatGPT solamente completaron un 10% de las tareas y el peor empleado fue Nova Pro 1 de Amazon con un 1,7% de tareas completadas. Los fallos más habituales se producían por falta de habilidades sociales y por no desenvolverse bien buscando en internet.