Por Canuto  

OpenAI sostiene que la inteligencia artificial acaba de cruzar un umbral decisivo: no tanto por un salto mágico en capacidades, sino porque los modelos ya son lo bastante confiables como para encargarse de trabajo útil en programación, investigación y tareas complejas del mundo real.
***

  • Jan Leike afirmó que OpenAI habría cruzado desde diciembre un nivel de confiabilidad que vuelve realmente útiles a sus modelos.
  • La firma atribuye el momento actual a tres factores: más fiabilidad, aceleración interna gracias al uso de IA para desarrollar IA y mejoras en refuerzo aplicado a tareas reales.
  • Pese al avance, OpenAI reconoce problemas abiertos como el aprendizaje continuo, las evaluaciones y la adaptación de modelos a entornos empresariales.


La sensación de que la inteligencia artificial dio un salto repentino no sería una ilusión completa, pero tampoco respondería a un único descubrimiento milagroso. Para Jan Leike, líder del equipo de post entrenamiento frontier en OpenAI, lo que cambió fue que los modelos alcanzaron un nivel de confiabilidad suficiente para empezar a asumir trabajo real, especialmente en programación, investigación temprana y tareas agentivas.

Durante una conversación con Matt Turck, Leike explicó que el progreso técnico ha sido más continuo de lo que parece desde afuera. Sin embargo, sostuvo que existe un umbral práctico: cuando la probabilidad de error baja lo suficiente, la herramienta deja de ser una curiosidad impresionante y se convierte en un sistema en el que usuarios y desarrolladores pueden empezar a confiar.

Esa idea ayuda a entender por qué muchos usuarios sienten que la IA es distinta en 2026 frente a hace apenas un año. En vez de limitarse a destacar en evaluaciones de matemáticas o competencias de código, los modelos ahora se acercan más al trabajo desordenado del mundo real, donde abundan la ambigüedad, la búsqueda de información y las instrucciones incompletas.

Leike dijo que en OpenAI ese umbral probablemente se cruzó en diciembre del año pasado. Desde entonces, añadió, los modelos ya pueden encargarse de buena parte de las tareas que antes solo hacían personas, al menos en ciertos flujos de trabajo. En su visión, ese cambio explica la actual percepción de aceleración.

Por qué el avance ahora se siente como una “función escalón”

Según Leike, hay tres razones principales detrás de la sensación de salto brusco. La primera es la confiabilidad. En modelos agentivos, explicó, un pequeño margen de error acumulado cada pocos minutos termina elevando de forma importante la probabilidad de una respuesta final incorrecta. Por eso, reducir esa tasa de equivocación es clave para volver útil a un sistema.

La segunda razón tiene que ver con la retroalimentación interna. Una vez que los modelos son suficientemente buenos, los propios equipos de IA pueden utilizarlos para escribir código, construir herramientas de investigación y acelerar el entrenamiento de otros modelos. Ese efecto compounding hace que el ritmo de desarrollo se intensifique.

La tercera razón está en el aprendizaje por refuerzo o reinforcement learning. Leike señaló que los primeros avances importantes de esta etapa estaban concentrados en dominios con recompensas verificables, como problemas matemáticos o competencias de programación, donde es fácil saber si una respuesta es correcta o no.

Ahora, afirmó, OpenAI y otros actores habrían conseguido trasladar muchas de esas técnicas a casos de uso reales. En sus palabras, el movimiento reciente fue pasar de “competencias” a “utilidad para usuarios”. Esa transición importa porque acerca la IA a tareas laborales menos limpias y más ambiguas, que son las que definen gran parte de la economía.

Qué destaca OpenAI de GPT-5.5

Leike describió a GPT-5.5 como un modelo en el que gran parte de la compañía estuvo alineada. Dijo que una de las características más relevantes fue la eficiencia alcanzada en esta versión. De acuerdo con su explicación, muchas tareas pueden realizarse aproximadamente 2 veces más rápido que antes.

El ejecutivo atribuyó esa mejora a una combinación de investigación e ingeniería. Por un lado, los equipos trabajan para desplazar hacia la izquierda la curva entre rendimiento y tokens de razonamiento, lo que significa pensar menos para obtener el mismo resultado. Por otro, los equipos de inferencia transforman esa reducción en menor latencia real para el usuario.

Dentro de OpenAI, explicó, existen equipos orientados a mejoras verticales en áreas específicas y otros enfocados en capacidades horizontales. Su propio grupo cumple una función de integración. Eso incluye decidir qué avances llegan al entrenamiento final, combinar mejoras de varias áreas y suavizar el comportamiento del modelo para que no se sienta demasiado irregular entre distintos casos de uso.

Entre esas mejoras horizontales mencionó seguimiento de instrucciones, llamadas a funciones, memoria y gestión del tiempo de pensamiento. Esa última variable es especialmente importante en modelos que razonan, porque un sistema más entrenado no solo piensa más, sino que también aprende a pensar mejor y a descartar antes caminos incorrectos.

Del razonamiento verificable al mundo ambiguo

Leike sostuvo que los modelos como O1 y sus primeras variantes representaron un avance fuerte porque mostraron que, al pensar más tiempo, un sistema podía elevar su probabilidad de acierto. Pero también remarcó que aquellos desarrollos estaban muy ligados a evaluaciones donde existía una verdad de referencia clara y comprobable.

La novedad de la etapa reciente es otra. OpenAI habría tomado herramientas diseñadas para entornos con recompensas verificables y las adaptó para optimizar la utilidad concreta para usuarios. Eso implica trabajar con datos más desordenados, tareas menos especificadas y evaluaciones más parecidas a la práctica profesional que a una olimpiada de matemáticas.

En ese contexto, Leike diferenció entre versiones que usan más cómputo en tiempo de prueba, como la variante Pro, y otras que buscan resolver más rápido. Dijo que aumentar el tiempo de razonamiento sigue mejorando la probabilidad de acierto, pero esas curvas no son lineales. El retorno adicional se va reduciendo, y por eso no siempre compensa esperar mucho más.

La metáfora humana que usó fue simple. Un principiante puede tardar días en explorar muchas rutas posibles, mientras que un experto reconoce antes qué camino vale la pena seguir. Para Leike, un modelo eficiente es aquel entrenado para detectar con mayor probabilidad cuáles trayectorias de razonamiento son más prometedoras y cuándo conviene retroceder.

Pre entrenamiento, mid training y post training

En la conversación, Leike también repasó cómo entiende OpenAI las distintas capas del desarrollo de modelos. Sobre el pre entrenamiento, evitó dar detalles internos, pero señaló que el aumento de escala sigue rindiendo frutos. Incluso admitió que hace dos años él mismo pensaba que esa etapa estaba cerca de chocar contra un muro.

Su lectura actual es que modelos más grandes pueden ser también más eficientes. Aunque demanden más recursos, generan menos tokens de razonamiento para resolver ciertos problemas y además permiten paralelización más eficaz en inferencia. Esa combinación, dijo, puede mejorar el sistema completo y no solo el puntaje bruto del modelo.

Respecto al llamado mid training, explicó que se trata de sobreponderar datos de alta calidad, más útiles para el resultado final. Puso como ejemplo fuentes tipo enciclopedia o repositorios de código frente a contenido de baja señal, como anuncios o foros poco informativos. La idea es simple: no toda la web aporta el mismo valor para entrenar una IA útil.

Sobre el post training, Leike lo definió como el proceso de convertir un sistema que “sabe sobre el mundo” en uno que resulta útil para las personas. Allí ubicó desde el supervised fine-tuning hasta distintas variantes de aprendizaje por refuerzo. En esa etapa, el objetivo ya no es absorber conocimiento general, sino aprender a responder mejor, interactuar mejor y maximizar utilidad.

Por qué el aprendizaje por refuerzo volvió al centro

Leike reconoció que, durante años, gran parte de la comunidad veía el reinforcement learning como una técnica difícil, inestable y a veces innecesaria. Él mismo compartía esa opinión cuando aparecieron los primeros indicios de su uso en asistentes conversacionales modernos. En ese momento creyó que podía replicarse mucho con simple ajuste supervisado.

Su visión cambió con la escala. Dijo que, una vez que los modelos acumulan suficientes “buenos priors” sobre el mundo, el aprendizaje por refuerzo empieza a funcionar mucho mejor. Algo similar, añadió, estaría ocurriendo también en robótica, donde sistemas antes muy frágiles ahora aprenden con más consistencia gracias a modelos base más potentes.

Entre los retos actuales mencionó el alto costo de muestreo y el problema de atribución en trayectorias largas. En sistemas agentivos, muchas veces solo se sabe si una respuesta fue correcta al final de un proceso extenso. Eso dificulta identificar qué paso exacto fue el valioso y cuál condujo al error.

También destacó que, en el ecosistema abierto, métodos como GRPO parecen estar ganando terreno por su simplicidad y escalabilidad. A su juicio, la historia del aprendizaje automático muestra con frecuencia que los enfoques más simples, cuando pueden escalarse bien con cómputo, terminan imponiéndose sobre alternativas más complejas.

Alucinaciones, evaluaciones y el gran problema no resuelto

Otro punto relevante fue el de las alucinaciones. Leike recuperó una idea defendida anteriormente por John Schulman: el ajuste supervisado puede reforzar respuestas inventadas si obliga al modelo a imitar referencias que no conoce. En cambio, un pipeline robusto de aprendizaje por refuerzo debería desalentar ese comportamiento, porque resulta extremadamente improbable premiar de forma consistente una invención correcta.

La discusión se conectó con el problema de las evaluaciones. Para Leike, medir modelos es cada vez más difícil porque las tareas relevantes son más abiertas y porque, en algunos ejes, los sistemas ya superan a la mayoría de los evaluadores humanos disponibles. Además, construir evaluaciones útiles suele acercarse mucho a construir datos de entrenamiento, lo que acelera su obsolescencia.

El ejecutivo también subrayó una deuda pendiente: el aprendizaje continuo. Aunque los modelos pueden ser más útiles que un nuevo empleado en el día cero, todavía no aprenden con suficiente rapidez del contexto específico de una empresa o de un usuario. Eso limita su valor acumulado con el tiempo.

Leike admitió que le sorprende que la industria siga lejos de resolverlo plenamente, tres años después del auge de los asistentes conversacionales. En su opinión, un sistema verdaderamente transformador debe mejorar dentro del entorno en el que opera, no solo llegar bien entrenado desde el inicio.

Qué significa esto para startups y aplicaciones

Pese al fuerte avance de los modelos base, Leike rechazó la idea de que ya no tenga sentido construir aplicaciones encima de ellos. Afirmó que todavía existe mucho espacio en la “última milla”, es decir, en integración con permisos, conectores, flujos concretos y necesidades verticales que un modelo general no cubre por sí solo.

En su lectura, muchas personas sobrestiman la inteligencia bruta del modelo como cuello de botella y subestiman esa capa de implementación. Para una empresa que necesita pasar de 80% a 85% de confiabilidad en una tarea muy concreta, un buen harness o andamiaje todavía puede marcar una diferencia clara, aunque luego deba reajustarse con cada nueva generación de modelos.

Eso deja una lectura relevante para el ecosistema tecnológico y también para mercados atentos a la IA, desde capital de riesgo hasta firmas expuestas a software empresarial. Si OpenAI acierta, la próxima fase no será solo una carrera por modelos más grandes, sino también por herramientas que los conecten con problemas reales y entornos productivos.

Leike cerró con una visión optimista. Dijo que no ve nada inherentemente especial en sectores como legal o medicina que impida a los modelos alcanzar niveles comparables a los observados en programación o ciberseguridad. Lo que cambia, afirmó, es la dificultad para recolectar los datos correctos, definir recompensas útiles y poner a trabajar expertos que entiendan de verdad cada dominio.


Imagen original de DiarioBitcoin, creada con inteligencia artificial, de uso libre, licenciada bajo Dominio Público.

Este artículo fue escrito por un redactor de contenido de IA y revisado por un editor humano para garantizar calidad y precisión.


ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.

Suscríbete a nuestro boletín