Un nuevo proyecto de Andre Carpathy volvió a encender el debate sobre el futuro del trabajo en la era de la inteligencia artificial. Auto Research no solo automatiza experimentos para entrenar modelos pequeños, también propone un patrón más amplio: humanos que definen objetivos y agentes que iteran sin descanso hasta encontrar mejores resultados.
***
- Andre Carpathy presentó Auto Research, un repositorio mínimo donde un agente de IA modifica código, ejecuta pruebas de 5 minutos y conserva solo las mejoras.
- La propuesta retoma la lógica de los llamados agent loops o bucles autónomos, un patrón que varios observadores creen aplicable más allá de la investigación en IA.
- El debate ya apunta a usos en ventas, marketing, reclutamiento, finanzas y desarrollo de software, siempre que exista una métrica clara y ciclos rápidos de evaluación.
🚀 Andre Carpathy lanza Auto Research y redefine el futuro del trabajo con IA.
El nuevo sistema automatiza experimentos de IA, confiando en agentes que optimizan códigos.
Humanos ahora diseñan objetivos y métricas mientras la IA itera constantemente.
Este modelo podría… pic.twitter.com/XtMPpsaBZT
— Diario฿itcoin (@DiarioBitcoin) March 10, 2026
Andre Carpathy volvió a captar la atención del sector tecnológico con un proyecto pequeño en tamaño, pero grande en implicaciones. La discusión no gira solo en torno a un nuevo repositorio de código, sino a una posible forma de reorganizar tareas cognitivas repetitivas mediante agentes de inteligencia artificial que operan en bucle.
En el episodio Autoresearch, Agent Loops and the Future of Work, el canal The AI Daily Brief planteó que la relevancia de Auto Research va más allá del entrenamiento de modelos. La tesis central es que este tipo de sistema podría convertirse en una nueva “primitiva” de trabajo, es decir, en un bloque básico reutilizable dentro de múltiples funciones y sectores.
La idea resulta relevante para cualquier lector que siga de cerca IA, automatización y productividad. Durante años, el valor humano estuvo asociado a ejecutar tareas complejas con criterio técnico. Lo que sugiere este nuevo enfoque es un cambio de nivel: el humano ya no necesariamente hace el trabajo directamente, sino que diseña el marco, la métrica y las reglas con las que una IA intentará mejorarlo una y otra vez.
Qué es Auto Research y cómo funciona
Auto Research es, en esencia, un sistema para entrenar un modelo de lenguaje pequeño. Se trata de una versión deliberadamente reducida del proceso de investigación en aprendizaje automático. En vez de depender de un investigador que ajuste manualmente parámetros, el sistema transfiere esa labor iterativa a un agente de IA.
Carpathy explicó que el repositorio es autocontenido, minimalista y de una sola GPU. Según describió, se basa en una versión simplificada de su núcleo de entrenamiento de LLM, reducida a un archivo de alrededor de 630 líneas de código. La premisa es que el humano itera sobre un archivo de instrucciones y el agente itera sobre el código de entrenamiento.
El sistema se organiza alrededor de tres archivos. El primero, prepare.py, contiene la infraestructura fija. Allí se descarga la data de entrenamiento, se entrena el tokenizador y se maneja la evaluación. Ese archivo no cambia dentro del ciclo experimental.
El segundo, train.py, es el archivo que el agente puede editar. En él están la definición completa del modelo GPT, el optimizador y el bucle de entrenamiento. El agente puede modificar arquitectura, hiperparámetros, tamaño del lote, parámetros de atención y la programación de la tasa de aprendizaje, entre otros elementos.
El tercer archivo, program.md, es el más importante a nivel conceptual. Es un texto en lenguaje natural donde el humano define el comportamiento esperado del agente. Allí se establecen instrucciones sobre cómo actuar como investigador, qué experimentos probar, qué riesgos evitar y cuándo conviene ser más conservador o más agresivo.
La mecánica operativa es simple. Un agente como Claude o Codex lee program.md, revisa el estado actual de train.py, decide una modificación, edita el archivo y lanza una ejecución de entrenamiento. Cada corrida tiene un presupuesto fijo de 5 minutos, lo que permite comparar intentos bajo las mismas condiciones.
Al final de cada ejecución se obtiene una única métrica objetiva: validation BPB o val BPB, abreviatura de validation bits per byte. En este caso, un valor menor implica un mejor desempeño. Si la nueva versión mejora la métrica, el cambio se conserva y se confirma en una rama de Git. Si no mejora, se descarta y el agente vuelve a la mejor versión previa.
El ciclo puede repetirse indefinidamente. En el ejemplo compartido por Carpathy, el sistema realizó 83 experimentos. De esos, 15 produjeron mejoras que fueron retenidas. El resultado fue una caída del val BPB desde 0,9979 hasta 0,9697.
Del código al memo: cambia el rol del humano
Uno de los puntos más llamativos del proyecto es el desplazamiento del trabajo humano desde la implementación hacia la definición estratégica. En lugar de editar directamente el código Python, la persona diseña el “arena” donde el agente va a investigar. El trabajo se parece menos a programar y más a redactar un memo operativo.
Según la explicación citada por The AI Daily Brief, la tarea humana pasa a ser escribir un mejor program.md. Es decir, crear mejores instrucciones, mejores criterios y mejores restricciones. El agente, por su parte, ejecuta la investigación dentro de ese marco y recibe una señal objetiva sobre si sus cambios mejoran o empeoran el resultado.
Esa lógica gustó a varios observadores. Leor Alexander sostuvo que ya no se escribe el código de entrenamiento, sino un prompt que indica a la IA cómo pensar sobre la investigación. También destacó que el reloj fijo de 5 minutos es una pieza clave, porque convierte un proceso abierto en un juego con una puntuación clara.
Meh McNelte, cofundador de Cosmic Labs, señaló que transformar una sola GPU en un bucle autónomo de experimentación acelera el ritmo de iteración. Craig Huitt añadió que el caso de entrenamiento de LLM es menos importante que el patrón general: humano redacta una estrategia, agente ejecuta pruebas, una métrica decide qué sobrevive y el ciclo se repite durante toda la noche.
Daniel Miessler llamó a este esquema una automatización del método científico. También se mencionó que el mismo patrón podría adaptarse a contextos ajenos al aprendizaje automático, siempre que exista una forma rápida y reproducible de medir resultados y decidir objetivamente entre ganador y perdedor.
La conexión con Ralph Wiggum y los agent loops
La discusión sobre Auto Research conectó de inmediato con otro concepto que ya circulaba en la comunidad: el llamado Ralph Wiggum loop. Ese patrón, popularizado meses antes, describe un sistema donde un agente de programación trabaja en ciclos repetidos sobre un proyecto, con reinicios frecuentes para evitar degradación por saturación del contexto.
En ese modelo, cada iteración recibe una especificación del proyecto, revisa el estado del código, elige una tarea, la implementa, ejecuta pruebas y hace commit si todo pasa. Cuando el agente agota contexto o concluye su tanda, se termina la sesión y se inicia otra desde cero. La memoria no vive en la conversación, sino en los archivos, el historial de Git y artefactos externos como documentos de progreso.
Ese detalle es importante porque resuelve dos problemas prácticos. Primero, evita que un contexto demasiado largo degrade la calidad de la respuesta. Segundo, permite que el sistema siga operando mientras la persona duerme o atiende otras tareas. La persistencia ya no depende de una única sesión, sino del bucle mismo.
Varias voces describieron Auto Research como una versión científica de ese patrón. Neweron lo definió como un “Ralph Wiggum hiper modo”, en el que el objetivo no es terminar una tarea, sino mejorar continuamente respecto a un benchmark medible. Nick, otro cofundador citado en la discusión, lo resumió así: se define qué significa ganar, se entregan variables al agente y se deja que explore qué impulsa esa mejora.
Gary Tan, presidente de Y Combinator, también vinculó ambas ideas. En su análisis señaló que Auto Research no apareció de la nada, sino que extiende una lógica que ya estaba funcionando en desarrollo de software desde mediados de 2025. En esa visión, el héroe no es el modelo, sino el bucle.
De la investigación en IA a ventas, marketing y finanzas
Una parte central del debate consiste en determinar si este patrón sirve en cualquier contexto o solo en algunos. La respuesta más repetida es que no aplica a todo, pero sí a una gran franja de actividades con métricas claras, entornos acotados y ciclos rápidos de retroalimentación.
En esa línea, se expusieron varios ejemplos. Vernon Mather propuso conectarlo a un agente de investigación astrofísica de tipo peer to peer, capaz de colaborar con otros agentes, entrenar modelos, escribir papers y recibir crítica automatizada. Aunque el caso es extremo, muestra el impulso a imaginar sistemas cooperativos más amplios.
Más práctico fue el ejemplo de Vadim, CEO de Vugola, quien afirmó haber construido una versión del concepto para toda su empresa. Según explicó, el problema de muchos agentes actuales es que producen una salida y se detienen, sin memoria de lo que funcionó o fracasó. Su solución fue un archivo compartido llamado learnings.md, que todos los agentes leen antes de trabajar y actualizan al terminar.
En marketing, el enfoque se traduce en experimentación continua. Vadim sostuvo que muchos equipos hacen unas 30 pruebas al año, mientras que una próxima generación podría ejecutar más de 36.500 con facilidad. Eric ofreció el caso del outreach en frío: 15 bandejas de entrada, cerca de 300 correos al día, una variable modificada por experimento, envío de 100 correos, espera de 72 horas y evaluación por tasa de respuesta positiva.
Roberto Nixon aplicó la lógica a publicidad digital. Su esquema empieza por definir éxito, como compras o instalaciones, fijar un presupuesto, generar miles de variaciones creativas y probarlas en tiempo real con audiencias reales. Los activos que funcionan se conservan y los demás se eliminan. En lugar de una campaña fija, se tendría un organismo vivo que evoluciona hacia un objetivo.
El episodio también extendió el patrón a reclutamiento, análisis financiero, control de calidad y revisión legal. Entre los ejemplos mencionados aparecen un reclutador que define una rúbrica para revisar 500 currículums, un analista financiero que prueba asignaciones de portafolio bajo restricciones dadas, o un abogado que aplica listas de chequeo de riesgo a contratos de proveedores.
Cuándo sí funciona un bucle autónomo
La discusión identifica cinco condiciones que favorecen este tipo de automatización. La primera es la existencia de una puntuación clara. El sistema debe poder distinguir entre mejor y peor sin depender constantemente de juicio humano. Cuanto más subjetiva sea la evaluación, más difícil será automatizar el bucle.
La segunda condición es que las iteraciones sean rápidas y baratas. Los intentos fallidos deben costar minutos, no meses. La tercera es que el entorno esté acotado, con un espacio de acción bien definido. La cuarta es que el costo de un mal intento sea bajo, lo que excluye casos delicados como trámites legales en vivo. La quinta es que el agente deje rastros utilizables, para que el estado del trabajo exista fuera de su contexto efímero.
Para ordenar esa intuición, el presentador mencionó un “eval loop readiness map” diseñado con Claude. El eje horizontal mide qué tan automatizable es la evaluación. El vertical, la velocidad de iteración. En la parte alta aparecen procesos como generación de código, comportamiento de NPCs en videojuegos, optimización de pujas publicitarias, trading algorítmico e investigación de entrenamiento de LLM.
Más abajo quedan áreas con evaluación parcial y ciclos más lentos, como moderación de contenido, pruebas A/B de copy o ruteo de cadenas de suministro. En el extremo menos favorable figuran ámbitos altamente subjetivos y lentos, como negociación política o terapia y consejería.
La conclusión general del análisis es contundente: casi cualquier proceso laboral con resultados medibles de forma objetiva terminará siendo objeto de experimentación con agent loops. Si esa hipótesis se confirma, el cambio no será una herramienta aislada, sino una capa transversal de trabajo.
Hacia enjambres de agentes y nuevas infraestructuras
Carpathy no presentó Auto Research como un punto final. Según expuso al día siguiente, el siguiente paso debería ser un sistema masivo y sincrónico de colaboración entre agentes. La meta ya no sería emular a un único estudiante de doctorado, sino a una comunidad de investigación completa.
El repositorio actual hace crecer una sola línea de commits en una dirección específica. Pero Carpathy sugiere un modelo en el que múltiples agentes trabajen en distintas direcciones de investigación o sobre distintas plataformas de cómputo. A su juicio, GitHub se queda corto porque supone, de forma suave, una rama principal a la que luego regresan los cambios.
En ese punto aparecieron nuevas ideas. Blake Herren sostuvo que falta una capa de memoria semántica compartida entre agentes, porque Git registra cambios de código, pero no decisiones, razonamientos ni experimentos fallidos. Kathy F añadió que el verdadero desbloqueo llegará cuando los agentes compartan resultados negativos de forma eficiente, de modo que cada fracaso reduzca el árbol de búsqueda para los demás.
Eugen Jin fue aún más lejos al afirmar que una forma de AGI podría parecerse a miles de millones de agentes haciendo investigación autónoma juntos. Dan Romero incluso se preguntó si la infraestructura adecuada se parecerá más a una red social nativa para agentes que a una versión mejorada de GitHub.
Si esa dirección prospera, el valor humano seguirá desplazándose hacia niveles más abstractos. Diseñar el entorno, construir evaluadores, descomponer problemas y supervisar la operación del bucle podrían convertirse en competencias centrales. En esa lógica, el trabajo del futuro no consistiría tanto en ejecutar tareas, sino en especificar qué significa hacerlas bien y dejar que sistemas autónomos exploren la mejor forma de conseguirlo.
ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.
Suscríbete a nuestro boletín
Artículos Relacionados
Empresas
Pentágono descarta reconciliación con Anthropic y acelera adopción de IA de Google
Adopción
ChatGPT mantiene el liderazgo, pero la guerra por la IA de consumo se intensifica
Empresas
Meta compra Moltbook pese al escándalo por publicaciones falsas de IA
Criptomonedas