Por Canuto  

Las empresas gastan cada vez más en inteligencia artificial, pero pocas pueden medir el valor real que obtienen. Cognition, la firma detrás del agente programador Devin, presentó una garantía sin precedentes: si su IA no genera la productividad prometida, la compañía financiará el uso del cliente con hasta USD $10 millones. Un paso audaz que busca transformar la manera en que la industria mide el retorno de la inversión en IA.
***

  • Cognition introduce una garantía de productividad para Devin, su agente de IA programador, con un respaldo de hasta USD $10 millones.
  • Un estimador interno mide las horas de trabajo útil generadas por el agente y las compara con el costo pagado por el cliente empresarial.
  • Cognition validó su modelo contra estimaciones reales de ingenieros humanos y planea publicar sus aprendizajes para impulsar estándares en la industria.


El gasto corporativo en inteligencia artificial alcanza cifras récord, pero la mayoría de las empresas no sabe exactamente qué está recibiendo a cambio. Los tableros de control muestran métricas de actividad como tokens consumidos o líneas de código generadas, pero ninguna responde la pregunta fundamental: ¿cuánto valor real está obteniendo el negocio? La industria necesita pasar de maximizar métricas de uso a maximizar resultados, y por ahora no existe un buen estándar para medirlo.

Cognition, la compañía creadora del agente de programación Devin, decidió enfrentar esa carencia con una propuesta radical: una garantía de productividad. Según el anuncio oficial, la empresa construyó un estimador de IA que cuantifica las horas de ingeniería que Devin entrega a sus clientes empresariales. Los resultados fueron tan sólidos que la firma ahora respalda financieramente su servicio: si Devin aporta menos valor del que el cliente paga, Cognition financia el uso hasta USD $10 millones hasta igualar la diferencia.

“Los proveedores de IA deberían ser los encargados de proporcionar un estándar. Construimos un estimador que mide la productividad real y ahora ofrecemos una garantía. Esperamos que otras empresas de IA se muevan en una dirección similar”, explicó Cognition en su blog. La iniciativa, denominada Garantía de Productividad de IA, marca un hito en la transparencia de un sector acostumbrado a prometer más de lo que puede medir.

Cómo funciona el estimador de productividad

El corazón del sistema es un agente que revisa cada sesión completada de Devin y evalúa dos aspectos: si la sesión generó una salida útil y, en caso afirmativo, cuánto tiempo le habría tomado a un ingeniero humano producir el mismo trabajo. No se basa en líneas de código, porque un error crítico que exige horas de investigación puede resolverse con una modificación de apenas dos líneas. La medición se expresa en horas de salida productiva, una métrica mucho más cercana al valor real.

El agente estimador tiene acceso al aviso del usuario, al pull request (PR) cuando existe, a cada acción que ejecutó Devin y al contexto del código proporcionado por DeepWiki, una herramienta complementaria. Si la sesión terminó con PR no fusionados o fue clasificada como no productiva, la salida directamente se considera no útil. De esta forma, solo el trabajo que realmente aporta valor se contabiliza en el cálculo final.

Cognition reunió un conjunto de datos con estimaciones de tiempo realizadas por ingenieros humanos de sus propios clientes empresariales. Esos datos sirvieron para validar el modelo. “Ninguna estimación única es perfecta, pero a través de muchas tareas de variada complejidad, los altos y bajos se equilibran”, detalló la compañía en su comunicado. Esa validación fue clave para ganar la confianza necesaria para lanzar la garantía.

El estimador no reemplaza una medición completa del retorno de inversión, que requiere un contexto más profundo sobre el valor comercial de cada tarea. Sin embargo, establece una línea de base medible. Cognition complementa este trabajo con equipos de atención al cliente que colaboran directamente con las empresas para entender el impacto total del ROI en sus despliegues de agentes.

La transparencia no termina ahí. La empresa planea seguir iterando el estimador y publicar lo que aprenda en el camino. Devin, además, es independiente del modelo de lenguaje subyacente: utiliza el modelo más adecuado para cada tarea y ofrece controles detallados de gasto, ayudando a los clientes a optimizar la relación costo-beneficio y a dirigirse hacia avisos más productivos.

Validación y limitaciones del modelo

Para calibrar el estimador, Cognition preguntó a un grupo de usuarios de sus clientes empresariales cuánto tiempo habrían tardado en realizar manualmente las mismas tareas que delegaron en Devin. Las respuestas permitieron construir un espejo humano contra el cual contrastar las predicciones del agente. Aunque toda estimación individual tiene un margen de error, el volumen de tareas analizadas —de complejidad dispar— hace que las diferencias se compensen y el resultado global resulte confiable.

La métrica resultante son horas de salida útil, una unidad más significativa que los tokens o las líneas de código. Pero Cognition es cuidadosa al aclarar sus límites: esa cifra no equivale automáticamente a retorno sobre la inversión, porque el valor comercial de cada hora depende de la naturaleza del proyecto. Calcular el ROI exige incorporar factores estratégicos que el estimador no contempla.

Por eso, los equipos de integración de Cognition trabajan codo a codo con los clientes. Identifican proyectos de alto valor, organizan talleres de capacitación sobre gestión productiva de flotas de agentes y hacen programación en pareja con los ingenieros humanos. Así se construye una imagen completa que combina la línea base del estimador con la interpretación cualitativa del negocio.

El modelo de compromiso también incluye una revisión de datos históricos de productividad. Esa evaluación retrospectiva —junto con el hecho de que Devin puede adaptar el modelo de IA a cada tarea y controlar el gasto— fue lo que dio a Cognition la seguridad para respaldar financieramente su promesa.

Aun con sus limitaciones, la iniciativa marca un precedente. La industria de la IA está plagada de cifras de uso que no cuentan la historia completa. Cognition apuesta por medir lo que realmente importa y compartir sus hallazgos para elevar el estándar colectivo.

La garantía en detalle

La Garantía de Productividad de IA funciona de forma simple en su enunciado: si Devin entrega menos valor en ingeniería del que el cliente paga, Cognition financia su uso hasta USD $10 millones hasta que el valor iguale o supere el costo. Ese monto se convierte en créditos aplicables al consumo del servicio.

El mecanismo de cálculo toma las horas de ingeniería estimadas y las transforma en valor monetario utilizando una tarifa global estándar. Esa cifra se compara con el consumo real del cliente cerca del final de su contrato anual. Si la diferencia es negativa para el cliente —es decir, si pagó más de lo que Devin generó—, se activan los créditos de compensación.

La garantía está diseñada para implementaciones empresariales, donde los volúmenes de uso permiten que las estimaciones estadísticas sean representativas. Cognition se involucra directamente en la integración y el seguimiento, lo que reduce la incertidumbre y permite anticipar desvíos antes de que se conviertan en un problema financiero.

“Cada proveedor de IA debería ser capaz de decir a sus clientes qué están obteniendo por su dinero”, sentenció la compañía. Y agregó que le gustaría ver que más actores del sector adopten prácticas similares. La declaración no es solo un desafío comercial, sino un llamado a profesionalizar la medición de impacto en inteligencia artificial.

Con esta movida, Cognition no solo busca diferenciarse, sino empujar a la industria hacia una cultura de responsabilidad. En un momento en que las empresas destinan presupuestos millonarios a la IA sin métricas claras, tener un proveedor que se juegue USD $10 millones por sus resultados puede cambiar las reglas del juego.


ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.

Suscríbete a nuestro boletín