Por Canuto  

Andrej Karpathy publicó autoresearch, un repositorio experimental que propone una idea directa pero ambiciosa: dejar que agentes de IA modifiquen y prueben por sí solos una pequeña configuración de entrenamiento de modelos de lenguaje en una sola GPU durante ciclos de 5 minutos. La apuesta es convertir una noche de cómputo en decenas de experimentos comparables y revisables.
***

  • El proyecto limita al agente a modificar solo el archivo train.py, mientras el humano guía el proceso desde program.md.
  • Cada experimento corre con un presupuesto fijo de 5 minutos y se evalúa con la métrica val_bpb, donde un valor más bajo es mejor.
  • Autoresearch funciona como una demostración minimalista sobre una sola GPU NVIDIA, sin dependencias complejas ni entrenamiento distribuido.

 


La automatización de la investigación en inteligencia artificial dio un nuevo paso con la publicación de autoresearch, un repositorio creado por Andrej Karpathy en GitHub. El proyecto plantea una dinámica concreta: entregar a un agente de IA una configuración real, aunque pequeña, de entrenamiento de un modelo de lenguaje y permitirle experimentar de forma autónoma durante horas.

La propuesta busca que el agente modifique el código, entrene durante 5 minutos, evalúe si hubo mejora, conserve o descarte el cambio y repita el ciclo. La promesa práctica es simple y llamativa: que una persona se vaya a dormir y despierte con un registro de experimentos, además de un modelo potencialmente mejorado.

El repositorio también está envuelto en un tono deliberadamente futurista. En la introducción, Karpathy imagina un escenario en el que la investigación de frontera en IA ya no recae en humanos reunidos en laboratorios, sino en enjambres autónomos de agentes desplegados sobre megaclústeres computacionales. Según ese texto, este repositorio representaría el punto de partida de esa transición.

Más allá del tono narrativo, el proyecto funciona como una demostración técnica muy acotada. La base de entrenamiento utilizada es una implementación simplificada de una sola GPU de nanochat, y el objetivo es observar hasta qué punto un agente puede iterar sobre un sistema de entrenamiento real sin depender de una infraestructura compleja.

Una investigación autónoma, pero con límites muy claros

Uno de los principios centrales de autoresearch es reducir al mínimo el espacio de intervención del agente. El repositorio solo considera tres archivos importantes. prepare.py contiene constantes fijas, preparación única de datos y utilidades de ejecución. Ese archivo no se modifica.

El archivo clave es train.py. Allí se concentra el modelo GPT completo, el optimizador Muon más AdamW y el bucle de entrenamiento. Ese es el único archivo que el agente puede editar, lo que mantiene las diferencias de código relativamente revisables y evita que la experimentación se vuelva inmanejable.

El tercer componente es program.md, descrito como un conjunto básico de instrucciones para el agente. En vez de editar archivos de Python como lo haría un investigador tradicional, el humano ajusta este archivo Markdown para dar contexto y configurar la organización de investigación autónoma.

Karpathy explica que el program.md predeterminado se mantiene de manera intencional como una base mínima. Sin embargo, sugiere que con el tiempo podría refinarse para descubrir qué “código de organización de investigación” produce avances más rápidos, o incluso para incorporar más agentes al proceso.

Ese diseño introduce una separación interesante entre la labor humana y la labor automatizada. El humano define reglas, contexto y metas operativas, mientras el agente trabaja directamente sobre la maquinaria del entrenamiento. En la práctica, esto convierte a Markdown en la capa de dirección estratégica y al archivo Python en el espacio experimental.

Presupuesto fijo de 5 minutos y una métrica comparable

Otro elemento central del proyecto es el uso de un presupuesto de tiempo fijo para cada experimento. Por diseño, el entrenamiento corre exactamente durante 5 minutos de reloj de pared, sin contar el tiempo de inicio ni compilación. Ese límite se mantiene sin importar los detalles de la plataforma de cómputo utilizada.

La métrica elegida es val_bpb, o bits de validación por byte. Un valor más bajo indica un mejor resultado. Karpathy destaca que esta medida no depende del tamaño del vocabulario, por lo que permite comparar de forma más justa cambios arquitectónicos distintos dentro del mismo marco experimental.

El repositorio estima que con este esquema pueden ejecutarse cerca de 12 experimentos por hora y alrededor de 100 experimentos durante una noche. Esa cifra no implica garantía de mejora, pero sí define el ritmo esperado de iteración para un flujo de trabajo autónomo y continuo.

Según la explicación incluida en el propio proyecto, el presupuesto fijo ofrece dos ventajas. La primera es que vuelve comparables los experimentos incluso si el agente cambia tamaño del modelo, lote, optimizador o arquitectura. La segunda es que obliga al sistema a encontrar la configuración más eficiente posible dentro del tiempo asignado por la plataforma disponible.

El costo de esa decisión también está reconocido. Los resultados que obtenga una persona no serán directamente comparables con los de otra si ambas usan hardware diferente. En otras palabras, el marco es consistente dentro de una máquina específica, pero no está pensado como benchmark universal entre usuarios.

Requisitos, ejecución y alcance del proyecto

Para comenzar, el repositorio exige una sola GPU NVIDIA, con pruebas reportadas sobre una H100, además de Python 3.10 o superior y el gestor de proyectos uv. La instalación propuesta incluye sincronizar dependencias, descargar datos, entrenar un tokenizador BPE y luego ejecutar una prueba manual de entrenamiento de unos 5 minutos.

Si esa ejecución funciona, el usuario puede pasar al modo de investigación autónoma. La mecánica sugerida por Karpathy es activar Claude, Codex u otro agente dentro del repositorio, desactivar todos los permisos y pedirle que revise program.md para iniciar un nuevo experimento y preparar la configuración.

Ese detalle revela que autoresearch no intenta construir un sistema cerrado de agentes, sino una especie de armazón mínimo sobre el cual distintas herramientas de IA pueden operar. El archivo program.md es descrito, de hecho, como una “habilidad” súper ligera para orientar a esos modelos.

En cuanto a compatibilidad, Karpathy aclara que por ahora el código requiere una sola GPU NVIDIA. Añade que en principio sería posible soportar CPU, MPS y otras plataformas, pero reconoce que eso aumentaría el tamaño del código y dice no estar seguro de querer asumir esa responsabilidad de mantenimiento en este momento.

También subraya que el proyecto es una demostración y que desconoce cuánto soporte le dará en el futuro. Aun así, menciona que quienes busquen mayor compatibilidad pueden tomar como referencia el repositorio principal de nanochat, que incorpora soporte más amplio y varias soluciones adicionales, incluyendo una implementación alternativa de núcleos Flash Attention 3, soporte genérico de dispositivos y autodetección.

Un experimento minimalista con implicaciones más amplias

El valor de autoresearch no radica solo en su código, sino en la hipótesis que pone a prueba. La pregunta de fondo es si una configuración acotada, revisable y barata puede convertir a agentes de IA en asistentes de investigación capaces de generar progreso útil sin supervisión constante.

Para lectores menos familiarizados con este tipo de flujos, vale aclarar que en investigación de modelos de lenguaje una gran parte del trabajo consiste en probar pequeñas variaciones de arquitectura, optimización o hiperparámetros. Ese proceso suele ser repetitivo, consume tiempo y depende de muchas corridas fallidas antes de producir una mejora medible.

En ese contexto, la idea de delegar iteraciones nocturnas a agentes resulta atractiva. No resuelve por sí sola los grandes cuellos de botella de la IA, pero sí apunta a una forma más automatizada de explorar espacios de búsqueda dentro de presupuestos modestos. Esa lógica también conecta con tendencias más amplias en software, donde los modelos generativos ya participan en depuración, documentación y diseño experimental.

La fuente original en GitHub presenta además dos bifurcaciones notables del proyecto, miolini/autoresearch-macos y trevin-creator/autoresearch-mlx, lo que sugiere interés temprano por ampliar el alcance del experimento a otros entornos. El repositorio se distribuye bajo licencia MIT.

En su forma actual, autoresearch es más una declaración de método que una plataforma madura. Pero precisamente por eso resulta relevante. Condensa en un formato pequeño varias ideas de peso en la IA contemporánea: agentes autónomos, ciclos rápidos de evaluación, trazabilidad de cambios y separación entre guía humana y ejecución automática.

Si el enfoque logra escalar o no, dependerá de resultados concretos y de la capacidad de la comunidad para extenderlo. Por ahora, Karpathy puso sobre la mesa un laboratorio mínimo con una premisa provocadora: una sola GPU, un archivo editable y una noche pueden bastar para empezar a automatizar la investigación en modelos de lenguaje.


ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.

Suscríbete a nuestro boletín