Andrej Karpathy sostiene que la programación entró en una fase distinta. En su visión, los modelos de lenguaje ya no son solo asistentes, sino una nueva capa computacional que obliga a rediseñar productos, equipos e infraestructura alrededor de agentes capaces de actuar, aunque todavía con fallas irregulares que exigen supervisión humana.
***
- Karpathy describió un punto de inflexión a finales de 2025, cuando los modelos empezaron a resolver bloques de código completos con mucha más fiabilidad.
- El ex investigador de OpenAI y exdirector de IA en Tesla diferenció entre “vibe coding”, que eleva el piso, y la “ingeniería agéntica”, que busca mantener calidad profesional.
- Aunque cree que casi todo podría automatizarse, insistió en que el entendimiento, el criterio y el diseño siguen siendo funciones humanas clave.
La conversación sobre inteligencia artificial ya no gira solo en torno a chatbots más útiles o asistentes que aceleran tareas. Para Andrej Karpathy, uno de los nombres más influyentes del sector, el cambio reciente es más profundo: la industria habría entrado en una nueva etapa de computación, una en la que los modelos de lenguaje funcionan como una especie de “nuevo computador” y obligan a replantear qué significa programar.
Durante Andrej Karpathy: From Vibe Coding to Agentic Engineering, presentado por Sequoia Capital, Karpathy dijo que nunca se había sentido tan rezagado como programador. Lejos de tratarse de una frase efectista, explicó que la sensación surgió tras notar un salto claro en el desempeño de las herramientas agénticas, especialmente desde diciembre, cuando comenzó a confiar más en su capacidad para generar bloques de código completos sin correcciones constantes.
Según relató, durante buena parte del último año había usado herramientas de codificación asistida que resolvían fragmentos de trabajo, aunque todavía exigían edición frecuente. Eso cambió cuando los modelos más recientes empezaron a entregar resultados coherentes durante más tiempo y con menos necesidad de intervención. A partir de allí, dijo, comenzó a pedirles más y más tareas, hasta entrar de lleno en lo que él mismo popularizó como “vibe coding”.
El punto central de su tesis es que muchas personas probaron la IA en una fase anterior y no han actualizado su marco mental. A su juicio, mirar estas herramientas con los ojos del año pasado lleva a subestimar un cambio que ya es estructural. Para Karpathy, no se trata de un software ligeramente mejor, sino de un paradigma nuevo para procesar información y construir productos.
Del software 1.0 al software 3.0
Karpathy retomó una clasificación que ha repetido en otras ocasiones para explicar esta transición. En el software 1.0, los humanos escriben código de forma explícita. En el software 2.0, el “programa” se configura a través de datos, objetivos y entrenamiento de redes neuronales. En el software 3.0, argumentó, el acto de programar se desplaza hacia el prompting y la gestión del contexto entregado a un modelo de lenguaje.
Ese cambio importa porque el modelo deja de ser solo una herramienta de apoyo y pasa a operar como un intérprete programable. En vez de detallar cada paso con instrucciones rígidas, el desarrollador suministra texto, contexto y objetivos, mientras la red neuronal resuelve una parte creciente del trabajo dentro del espacio de información digital. En su visión, el centro de gravedad del desarrollo se mueve desde el código hacia la orquestación de agentes.
Para ilustrarlo, mencionó el caso de OpenClaw. Dijo que, en un paradigma clásico, un instalador de este tipo sería un script de shell cada vez más complejo para cubrir distintas plataformas. Sin embargo, en la lógica del software 3.0, la instalación puede reducirse a un bloque de texto pensado para que un agente lo ejecute, interprete el entorno y depure problemas durante el proceso.
La idea detrás de este ejemplo es sencilla pero disruptiva. Si el agente ya incorpora parte de la inteligencia necesaria para entender el contexto de una máquina y actuar sobre él, entonces la instrucción óptima deja de ser un script determinista y pasa a ser una guía textual bien diseñada. Para Karpathy, esa es una pista de cómo deben pensar los equipos que realmente aceptan que están frente a un nuevo modelo computacional.
Cuando una aplicación “ya no debería existir”
Uno de los ejemplos más llamativos de la charla fue MenuGen, un proyecto personal de Karpathy. La idea consistía en fotografiar el menú de un restaurante y obtener imágenes ilustrativas de los platos, algo útil cuando buena parte de los nombres no resultan familiares. Él mismo construyó una aplicación que hacía OCR, reordenaba la información y generaba imágenes para cada ítem.
Pero luego vio una versión mucho más radical del mismo problema. En lugar de una aplicación intermedia, bastaba con entregar la foto a Gemini y pedirle que usara Nanobanana para superponer visualmente los platos sobre el propio menú. El resultado, explicó, era una imagen de salida que conservaba la foto original, pero incluía en los mismos píxeles la reinterpretación visual de cada elemento.
Ese episodio lo llevó a una conclusión incómoda para los desarrolladores tradicionales: parte del software que hoy se construye podría ser innecesario. No porque esté mal hecho, sino porque pertenece a un paradigma anterior. Si una red neuronal puede transformar una entrada visual en una salida visual útil, con una sola instrucción, entonces muchas capas de interfaz, lógica y ensamblaje podrían desaparecer.
Karpathy extendió esa idea a otros tipos de trabajo informacional. Mencionó, por ejemplo, bases de conocimiento creadas por modelos de lenguaje a partir de documentos, artículos y hechos dispersos. No es solo “programar más rápido”, dijo en esencia, sino habilitar procesos que antes ni siquiera podían existir de forma práctica. Ahí ve una oportunidad mayor que el simple ahorro de tiempo en tareas conocidas.
Verificabilidad, automatización y una inteligencia irregular
Otro eje importante de la entrevista fue el concepto de verificabilidad. Según Karpathy, los sistemas actuales avanzan con especial fuerza en dominios donde las respuestas pueden evaluarse con claridad, como matemáticas, código y tareas adyacentes. Eso se relaciona con la forma en que los laboratorios entrenan modelos mediante aprendizaje por refuerzo y recompensas ligadas a resultados comprobables.
La consecuencia es una inteligencia “dentada” o irregular. Los modelos pueden rendir de forma extraordinaria en tareas muy exigentes y, al mismo tiempo, fallar en escenarios que a una persona le parecen obvios. Para ejemplificarlo, recordó que antes se usaba el caso de la palabra strawberry y el conteo de letras. Ahora propuso otro: un lavadero de autos a 50 metros. Algunos modelos de frontera, dijo, sugieren ir caminando, pese a que el objetivo explícito es lavar el automóvil.
Ese contraste resume el problema. Un sistema puede refactorizar una base de código de 100.000 líneas o identificar vulnerabilidades serias, y aun así tropezar con una inferencia cotidiana. Para Karpathy, entender esta irregularidad es clave para usar la IA con competencia real. No basta con admirar sus picos de rendimiento; también hay que mapear dónde están sus huecos y ajustar expectativas, procesos y supervisión.
También planteó que el rendimiento depende en parte de lo que los laboratorios deciden incluir en los datos de entrenamiento y en los circuitos de refuerzo. Citó el caso del ajedrez entre GPT-3.5 y GPT-4, donde la mejora no respondería solo a una evolución general, sino a la presencia de más datos específicos dentro de la distribución de entrenamiento. En otras palabras, parte del poder del modelo está guiado por decisiones previas de curación y enfoque.
De allí se desprende un consejo implícito para fundadores y empresas. Si un problema es verificable, aunque no esté entre las prioridades principales de los grandes laboratorios, puede seguir siendo un buen candidato para ajuste fino y entrenamiento propio. Karpathy sugirió que existen entornos valiosos de aprendizaje por refuerzo aún poco explotados comercialmente, aunque evitó detallar cuáles tenía en mente.
De “vibe coding” a ingeniería agéntica
Karpathy también propuso distinguir con más cuidado entre dos etapas del uso de IA en software. La primera es el “vibe coding”, una práctica que baja la barrera de entrada y permite que más personas construyan cosas funcionales, aunque no siempre con estándares profesionales sólidos. La segunda es la “ingeniería agéntica”, que busca preservar la calidad, la seguridad y la responsabilidad del desarrollo tradicional, pero con una velocidad mucho mayor.
En ese marco, el punto ya no es si cualquier persona puede crear algo con ayuda de un modelo. El verdadero desafío es cómo coordinar agentes poderosos, pero falibles y estocásticos, para producir software serio sin introducir vulnerabilidades ni degradar la arquitectura. Ahí ubica una nueva disciplina de ingeniería, más cercana a dirigir y revisar que a escribir cada línea manualmente.
Incluso sugirió que la ganancia de productividad podría exceder por mucho la vieja idea del “ingeniero 10x”. En su lectura, quienes realmente dominan estas herramientas alcanzan un techo de rendimiento bastante superior. Pero eso exige invertir en la propia configuración de trabajo, aprender a usar todas las capacidades del sistema y rediseñar incluso los procesos de contratación.
Sobre este último punto, criticó los métodos de evaluación que siguen anclados en acertijos y pruebas del paradigma anterior. Propuso, en cambio, pedir proyectos grandes y realistas, como construir un clon de una red social con agentes, endurecer su seguridad y luego someterlo a intentos de ruptura por parte de otros sistemas automatizados. Para él, esa clase de prueba se parece más al entorno en que opera un ingeniero agéntico competente.
Qué valor humano queda cuando los agentes hacen más
Frente a una automatización creciente, Karpathy señaló que las habilidades humanas que hoy ganan valor son el criterio, la estética, el gusto, la supervisión y la capacidad de diseñar buenas especificaciones. Describió a los agentes actuales como una suerte de internos brillantes pero extraños, con gran memoria y velocidad, aunque todavía propensos a errores de modelado básicos.
Puso como ejemplo un fallo ocurrido en MenuGen. En lugar de usar un identificador persistente de usuario, un agente intentó asociar créditos comprados en Stripe con el correo usado en Google para iniciar sesión. El problema es evidente: un mismo usuario puede usar correos distintos en ambos servicios. Para Karpathy, este tipo de error muestra por qué el humano sigue siendo responsable del diseño de alto nivel y de las restricciones esenciales del sistema.
También comentó que ya no memoriza muchos detalles de APIs, como diferencias entre keep dim y keep dims, o entre axis y dim. Esos detalles pueden delegarse. Lo importante, dijo, es comprender los fundamentos: cómo se comporta un tensor, cuándo una operación genera una vista o una copia de memoria, y qué decisiones afectan eficiencia y corrección. Se puede externalizar parte del pensamiento operativo, pero no el entendimiento.
Hacia el final, resumió esa idea con una frase que dijo recordar con frecuencia: se puede subcontratar el pensamiento, pero no el entendimiento. En un entorno donde la inteligencia se abarata, esa distinción se vuelve central para educación, liderazgo y construcción de productos. A su juicio, los modelos aún no destacan precisamente en comprensión profunda, por lo que sigue recayendo en las personas la tarea de decidir qué vale la pena construir, por qué hacerlo y cómo orientar a los agentes para lograrlo.
Hacia un mundo “agent native”
Karpathy cree que gran parte de la infraestructura digital actual sigue diseñada para humanos y que eso tendrá que cambiar. Documentación, flujos de despliegue, paneles de configuración y servicios externos todavía exigen demasiada interacción manual. Su frustración más clara apareció al hablar de interfaces que le dicen al usuario qué hacer, cuando en realidad, según su visión, deberían ofrecer directamente el bloque de instrucciones óptimo para un agente.
Recordó que una parte importante del trabajo en MenuGen no fue escribir el código, sino desplegar la aplicación, configurar servicios, enlazar ajustes y tocar DNS. Esa clase de fricción, en su opinión, evidencia lo lejos que aún estamos de un ecosistema verdaderamente nativo para agentes. Su prueba ideal sería tan simple como pedirle a un modelo “construye MenuGen” y no tener que intervenir más durante la publicación del producto en internet.
En el horizonte más amplio, imagina representaciones agénticas para individuos y organizaciones. Es decir, agentes negociando detalles, coordinando reuniones y resolviendo parte de la operación digital entre sí. Aunque la ruta exacta hacia ese escenario sigue abierta, la dirección general parece clara en su relato: menos interfaces diseñadas exclusivamente para humanos y más estructuras legibles por modelos capaces de actuar.
La advertencia final no fue apocalíptica, sino disciplinaria. Karpathy no presentó a los agentes como sustitutos inmediatos del juicio humano, sino como sistemas cada vez más potentes que obligan a revisar supuestos, prácticas y prioridades. Si su diagnóstico es correcto, la pregunta ya no es si la IA ayudará a programar, sino qué partes del software, de la empresa y de la infraestructura siguen atrapadas en un marco mental que la tecnología ya empezó a dejar atrás.
ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.
Suscríbete a nuestro boletín
Artículos Relacionados
Bitcoin
Gigantes tecnológicos redoblan su apuesta por la IA y elevan la presión sobre mineros de Bitcoin
Empresas
Microsoft supera expectativas, pero la acción cae por un capex menor al esperado
Exchanges
OKX lanza protocolo abierto para pagos entre agentes de IA y apuesta por el comercio autónomo
Estados Unidos