OpenAI sostiene que la inteligencia artificial ya no solo resuelve ejercicios, sino que empieza a moverse en terreno de investigación matemática real. En una conversación con Andrew Mayne, los investigadores Sebastian Bubeck y Ernest Ryu detallaron cómo los modelos pasaron de fallar en tareas cotidianas a asistir en problemas abiertos, detectar errores en papers y perfilar lo que llaman un “investigador automatizado”.
***
- Sebastian Bubeck y Ernest Ryu describieron un salto que llevó a la IA de fallar en problemas simples a rendir al nivel de una medalla de oro en la Olimpiada Matemática Internacional.
- OpenAI argumenta que el progreso en matemáticas no es un hito aislado, sino una señal de que los modelos podrían acelerar investigación en física, biología, química y otras ciencias.
- Los investigadores advirtieron que el avance también trae riesgos: más dependencia de la IA, validaciones defectuosas y una posible comprensión más superficial si cae la formación humana.
La idea de que los modelos de lenguaje “no sirven para matemáticas” quedó muy atrás, al menos según la visión presentada por investigadores de OpenAI. En una conversación conducida por Andrew Mayne, Sebastian Bubeck y Ernest Ryu trazaron una línea de progreso que, en apenas unos años, habría llevado a la IA desde errores casi básicos hasta el apoyo en matemáticas de nivel investigación.
El punto de partida de esa discusión fue What happens now that AI is good at math? — the OpenAI Podcast Ep. 17, donde ambos investigadores sostienen que las matemáticas funcionaron como un banco de pruebas ideal para medir avances en razonamiento. Su tesis central es clara: si un sistema puede sostener cadenas largas de inferencia sin romperse por un error intermedio, entonces su utilidad puede extenderse mucho más allá de esa disciplina.
Para una audiencia interesada en IA, mercados tecnológicos y automatización, el mensaje es relevante. Lo que está en juego no es solo si un chatbot resuelve ecuaciones, sino si los modelos pueden convertirse en herramientas de trabajo intelectual capaces de comprimir semanas de exploración científica en horas, algo con implicaciones directas para industrias intensivas en conocimiento.
Bubeck explicó que hace apenas dos años ni siquiera existían, en la práctica, modelos de razonamiento comparables a los actuales. A su juicio, el salto ha sido “milagroso”. En ese lapso, añadió, se pasó de sistemas sin capacidad sostenida de razonamiento a modelos que hoy pueden ayudar a medallistas Fields en su trabajo cotidiano.
Del escepticismo a la matemática de nivel investigación
Uno de los pasajes más llamativos de la conversación fue el recuerdo de un debate académico de hace aproximadamente un año y medio. Según Bubeck, en aquel momento cerca de 80% de los asistentes pensaba que escalar modelos de lenguaje no serviría para resolver grandes problemas abiertos en matemáticas. Al final del debate, dijo, la sala quedó dividida en torno a 50% y 50%.
La anécdota importó porque muestra la velocidad con la que cambiaron las expectativas. En retrospectiva, Bubeck afirmó que aquella cautela quedó superada muy rápido. Apenas unos ocho meses después, relató, los modelos comenzaron a mostrar señales de poder hacer matemática de nivel investigación.
Ryu situó otro hito en el verano de 2025, cuando ChatGPT logró un desempeño comparable al de una medalla de oro humana en la Olimpiada Matemática Internacional. Ese resultado, señaló, fue impresionante, pero también insuficiente para cerrar el debate, ya que los problemas de olimpiada son cortos, están acotados y fueron diseñados para tener solución.
La pregunta de fondo era si la IA podía cruzar la frontera hacia problemas genuinamente abiertos. Para comprobarlo, Ryu decidió probar con una cuestión clásica de teoría de optimización vinculada al método del gradiente acelerado de Nesterov. El problema llevaba 42 años abierto y preguntaba si, en ciertos casos adversos, el algoritmo podía divergir.
Ryu contó que dedicó 12 horas repartidas en tres noches a interactuar con ChatGPT sobre esa cuestión. Aclaró que no fue un caso de escribir un prompt y recibir una prueba final. Él actuó como verificador, corrigió errores del modelo y orientó la conversación hacia enfoques que consideraba novedosos. El resultado, dijo, fue una demostración correcta de que sí puede existir divergencia en el peor caso.
Según relató, antes de usar IA ya había invertido más de 40 horas sin éxito en el mismo problema. Esa comparación resume una de las promesas más repetidas durante la charla: la aceleración científica. No se trata únicamente de resolver más, sino de reducir drásticamente el tiempo necesario para llegar a una respuesta comprobable.
Por qué las matemáticas importan para la AGI
Bubeck argumentó que las matemáticas fueron un benchmark perfecto por dos razones. La primera es que los problemas suelen estar formulados de manera clara y poco ambigua. La segunda es que, en muchos casos, la corrección de una respuesta puede verificarse con bastante objetividad, lo que facilita medir mejoras del modelo de una generación a otra.
Ese uso de las matemáticas como barómetro no significa, según OpenAI, que el objetivo final sea resolver exámenes. El interés verdadero está en la estructura del pensamiento matemático. Para probar un teorema, dijo Bubeck, se necesita pensar durante mucho tiempo y hacerlo con consistencia, porque un solo error en la cadena puede arruinar toda la conclusión.
Esa propiedad se parece bastante a lo que se espera de sistemas de razonamiento más generales. Si un modelo aprende a corregirse, a sostener inferencias largas y a detectar puntos de fallo, esas capacidades podrían transferirse a otras áreas científicas. Bubeck comparó esa lógica con la formación humana: las matemáticas entrenan disciplina lógica, no solo capacidad de cálculo.
Ryu reforzó esa idea con ejemplos cotidianos. Recordó que entre 2023 y buena parte de 2025 los modelos aún fallaban en tareas relativamente comunes, como dividir gastos de un viaje con muchos ítems o coordinar una reunión entre Corea, París y California. Más tarde, dijo, se produjo un cambio brusco y los sistemas comenzaron a resolver esos problemas y otros mucho más complejos.
Su calibración actual es ambiciosa. Salvo que una persona sea un matemático profesional intentando inventar nueva matemática, sostuvo, ChatGPT ya puede encargarse de casi todo el trabajo matemático que necesita 99% de la población. Aun así, insistió en que el usuario debe verificar resultados, revisar pasos y, cuando haga falta, contrastar con simulaciones.
De búsquedas profundas en la literatura a resultados nuevos
La conversación también abordó uno de los temas más sensibles del debate actual: qué significa realmente “descubrir” algo con IA. Bubeck mencionó el caso de los problemas atribuidos a Paul Erdős, el prolífico matemático del siglo XX famoso por formular miles de preguntas y por el célebre “número de Erdős”, que mide la distancia de colaboración académica respecto a él.
Según explicó, OpenAI comenzó a probar modelos sobre una base de datos de problemas abiertos mantenida por Thomas Bloom. En algunos casos, los sistemas devolvieron soluciones a preguntas que aún aparecían como abiertas. El primer resultado que Bubeck difundió no correspondía, sin embargo, a una prueba completamente nueva, sino a una búsqueda profunda en literatura especializada.
La diferencia es crucial. El modelo no encontró un paper que dijera de forma explícita “aquí resolvemos un problema de Erdős”. Lo que hizo fue rastrear miles de textos, detectar una respuesta formulada en otro lenguaje matemático y conectar ambas piezas. Para los investigadores, eso ya fue sorprendente, porque exigía traducción conceptual entre campos distintos.
Más adelante, Mark Selke sistematizó ese enfoque y el modelo arrojó soluciones para 10 problemas atribuidos a Erdős. Bubeck admitió que un mensaje suyo sobre ese avance se interpretó como si las 10 soluciones hubieran sido completamente nuevas y originales, cuando en realidad varias estaban implícitas en la literatura existente. Ese matiz generó debate público, incluso con referencias a Demis Hassabis y Google.
Sin embargo, Bubeck sostuvo que la historia siguió avanzando. Meses después, afirmó, ya contaban con más de 10 soluciones realmente nuevas, publicables en revistas de primer nivel en combinatoria, obtenidas con ayuda de ChatGPT o de modelos internos. La afirmación apunta a una transición importante: de la recombinación inteligente del conocimiento existente hacia producción matemática original.
Ese punto no cierra el debate filosófico. Bubeck planteó que la IA obliga a repensar si el progreso científico depende de chispazos de genialidad irrepetible o si basta con recombinar ideas y añadir razonamiento incremental. Para él, el jurado sigue deliberando sobre esa cuestión.
El investigador automatizado y el “tiempo AGI”
Uno de los conceptos más interesantes de la charla fue el de “AGI time”, usado por Bubeck para describir cuánto tiempo puede sostener un sistema un trabajo comparable al humano. En su esquema, hace unos años la IA operaba a escala de segundos o minutos; ahora, dijo, ya se mueve en horas o días. El siguiente objetivo es llevarla a semanas o meses.
Hoy, describieron ambos, la interacción entre matemático y modelo se parece a una dinámica profesor-estudiante. El humano plantea un problema, el sistema produce intentos, recibe correcciones y vuelve con nuevas ideas. El método ya acelera mucho el trabajo, pero no basta todavía para romper algunas barreras de la ciencia más difícil, especialmente cuando intervienen laboratorios, experimentos o cadenas de razonamiento muy extensas.
Ryu explicó que una limitación importante sigue siendo el contexto. En sesiones tradicionales, el modelo solo puede manejar una cantidad finita de material, quizá comparable a unas 50 páginas de un paper matemático. Eso resulta insuficiente para muchos proyectos de investigación reales, donde una demostración final condensa meses o años de pensamiento y notas mucho más extensas.
Por esa razón, ambos ven con interés la evolución hacia agentes más persistentes, parecidos a cómo hoy ciertas herramientas de programación gestionan repositorios grandes y sesiones de trabajo prolongadas. La expectativa es que algo similar ocurra con la investigación matemática, permitiendo que los modelos organicen notas, retomen hipótesis y trabajen sobre problemas que requieran mucho más de “50 páginas de pensamiento”.
Si esa tendencia continúa, Bubeck cree posible que en uno o dos años los sistemas sean capaces de realizar buena parte de las tareas básicas de un investigador humano. Aun así, subrayó que eso no elimina el papel de las personas. Para él, la ciencia no existe para producir papers en masa, sino para comprender mejor el mundo y orientar soluciones hacia objetivos humanos, como curar enfermedades o construir tecnologías más robustas.
Riesgos: atrofia intelectual, validación débil y exceso de confianza
No todo en la conversación fue optimismo. Bubeck advirtió sobre un riesgo claro: entregar demasiado rápido “las llaves del castillo” a la IA y acostumbrarse a aceptar explicaciones simplificadas sin construir comprensión profunda. En su opinión, la experiencia y el dominio de un área son más valiosos que nunca, porque solo con esa base puede extraerse conocimiento útil y confiable de estos sistemas.
Ese matiz fue central. Los avances descritos por OpenAI no significan, según sus propios investigadores, que cualquier usuario sin formación vaya a producir teoremas nuevos de manera fiable. De hecho, Bubeck dijo que ya se han visto casos de personas sin preparación matemática que producen pruebas extensas con ayuda de IA y luego descubren que son incorrectas.
Ryu añadió que el problema se parece a lo que ocurre en programación. Las herramientas actuales facilitan mucho escribir código, pero también pueden fomentar una relación superficial con el oficio si el usuario nunca lucha con el depurador, la lógica y los fundamentos. En educación y ciencia, sugirió, eso puede traducirse en una formación más frágil.
Al mismo tiempo, ambos destacaron que la IA también puede ayudar a filtrar errores. Ryu aseguró que la verificación matemática es notoriamente difícil, sobre todo en pruebas largas, de cientos de páginas, escritas por investigadores reputados. Ese proceso a menudo tarda años. Con modelos cada vez mejores para revisar, detectar fallas y señalar zonas dudosas, ese ciclo podría acelerarse de forma importante.
La conclusión de los investigadores es menos apocalíptica y más exigente. No hacen falta menos científicos, sino más. Científicos mejor preparados, más productivos y capaces de usar estas herramientas sin renunciar al rigor. En su visión, la IA puede ampliar el acceso a las ciencias y funcionar como tutor extraordinario, pero no reemplaza la necesidad de criterio, paciencia y responsabilidad intelectual.
En ese marco, las matemáticas aparecen como algo más que una curiosidad académica. Son el terreno donde OpenAI cree haber medido con más claridad el salto de la IA hacia formas de razonamiento de mayor duración, mayor consistencia y mayor potencial para transformar otras ramas del conocimiento. La discusión ya no es si un modelo puede hacer cuentas, sino hasta dónde puede acompañar, acelerar o rediseñar la investigación humana.
ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.
Suscríbete a nuestro boletín
Artículos Relacionados
Análisis de mercado
Strategy está impulsando repunte de Bitcoin con emisión de acciones que pagan rendimiento, afirma Bitwise
Empresas
OpenAI llega a AWS tras romper la exclusividad con Microsoft
Empresas
Australia aprieta a Google, Meta y TikTok con un impuesto de 2,25% por noticias
Empresas