Por Canuto  

OpenAI sostiene que los modelos de IA pasaron en pocos años de fallar en problemas cotidianos a resolver ejercicios de nivel olímpico, asistir a matemáticos profesionales e incluso contribuir a resultados de investigación. Sus investigadores creen que ese progreso no solo transforma las matemáticas, sino que podría acelerar la ciencia en general.
***

  • Sebastian Bubeck y Ernest Ryu afirman que la IA ya puede encargarse de gran parte de las necesidades matemáticas de usuarios avanzados en STEM.
  • OpenAI asegura que sus modelos han ayudado a resolver problemas abiertos, detectar errores en artículos y formular preguntas de investigación útiles.
  • Pese al entusiasmo, los investigadores advierten que la experiencia humana sigue siendo esencial para verificar resultados y evitar una comprensión superficial.


Las matemáticas han sido durante años uno de los terrenos más incómodos para los modelos de lenguaje. Esa percepción, sin embargo, estaría cambiando con rapidez. En una conversación reciente, los investigadores Sebastian Bubeck y Ernest Ryu plantearon que el salto de la inteligencia artificial en esta área ha sido tan acelerado que ya sirve como una señal importante del avance hacia sistemas con capacidades de razonamiento mucho más amplias.

La discusión ocurrió en What happens now that AI is good at math? — the OpenAI Podcast Ep. 17, una entrevista conducida por Andrew Mayne. Allí, ambos investigadores describieron cómo los modelos pasaron de cometer fallos en problemas relativamente simples a resolver ejercicios de la Olimpiada Internacional de Matemáticas y a colaborar en tareas cercanas a la investigación profesional.

El punto central de la conversación fue que las matemáticas no importan solo por su valor académico. También ofrecen una forma clara de medir progreso en IA. Las preguntas suelen ser precisas, las respuestas se pueden verificar y los errores en una cadena de razonamiento suelen derrumbar toda la solución. Por eso, según OpenAI, mejorar en matemáticas equivale a entrenar una forma de pensar útil para ciencia, ingeniería y otras áreas donde la consistencia lógica es crucial.

Para una audiencia interesada en IA, mercados y tecnología, el tema resulta relevante por una razón adicional. Si los modelos logran sostener procesos de razonamiento más largos, confiables y corregibles, su impacto podría ir mucho más allá de resolver ecuaciones. Podrían acelerar investigación, desarrollo de software, diseño de materiales y análisis complejos, siempre con supervisión humana experta.

De fallar tareas cotidianas a nivel olímpico

Ryu recordó que cuando comenzaron a popularizarse estos sistemas, alrededor de 2023, su desempeño matemático distaba mucho de ser robusto. Mencionó ejemplos concretos. Uno consistía en dividir correctamente los gastos de un viaje de camping entre varias personas tras comprar cerca de 17 artículos. Otro era coordinar una videollamada entre Corea, París y California. Según contó, los modelos de 2023, 2024 e incluso comienzos de 2025 no resolvían bien este tipo de problemas.

Esa limitación contrastaba con el estado actual descrito por ambos investigadores. Ryu dijo que, salvo para quienes estén intentando inventar matemática nueva, ChatGPT ya puede encargarse de casi toda la matemática que un usuario avanzado de STEM podría necesitar. Matizó que aún conviene verificar resultados y hacer simulaciones para revisar posibles errores, pero sostuvo que para el 99% de la población la IA ya puede resolver la clase de problemas matemáticos que suelen surgir en la práctica.

Bubeck subrayó la velocidad del cambio con una comparación histórica. Recordó que hace cuatro años, antes de ChatGPT, le impresionó ver un modelo capaz de recibir coordenadas de puntos en el plano y devolver la recta que los une. Lo que hoy parece trivial, dijo, era entonces motivo de asombro. A su juicio, eso muestra hasta qué punto se ha acelerado el progreso reciente.

Otro hito mencionado fue el verano de 2025, cuando ChatGPT habría alcanzado rendimiento de nivel humano superior en la Olimpiada Internacional de Matemáticas, equivalente a una medalla de oro. Para Ryu, ese momento fue importante porque mostró una capacidad comparable con la de los mejores concursantes de secundaria, aunque aclaró que los problemas de competencia no son lo mismo que hacer investigación original.

El caso del problema abierto resuelto en 12 horas

Ryu relató que tras ese avance quiso probar por sí mismo si el sistema podía aportar algo real a la investigación. Escogió un problema clásico y abierto en teoría de optimización, relacionado con el método de gradiente acelerado de Nesterov. La cuestión era si, en ciertos casos adversos, el algoritmo podía divergir en vez de converger.

Según explicó, trabajó durante tres noches, unas 12 horas en total, interactuando con ChatGPT. No se trató de escribir una instrucción y recibir una solución perfecta. Él actuó como verificador, corrigió errores del modelo y guio la conversación hacia enfoques que consideraba novedosos. El resultado final fue una prueba correcta que mostraba que sí existe comportamiento divergente en el peor caso.

Ryu afirmó que el problema llevaba abierto 42 años. También señaló que había invertido antes más de 40 horas intentando resolverlo sin IA, sin éxito. Ese episodio se convirtió, en su relato, en una de las primeras instancias de un problema matemático genuinamente abierto resuelto con ayuda de inteligencia artificial.

El investigador contó además que decidió divulgarlo en redes sociales en lugar de limitarse a publicar un paper, porque le parecía una forma más entretenida de compartir el hallazgo. Esa elección, explicó el entrevistador, ilustra la importancia de ciclos rápidos de retroalimentación, aunque también expone los resultados al escrutinio público y al riesgo de interpretaciones erróneas.

Por qué las matemáticas importan para la AGI

Bubeck defendió que la capacidad matemática es un indicador especialmente útil para seguir el desarrollo de modelos de razonamiento. En su opinión, una gran virtud de este campo es que obliga a pensar durante mucho tiempo sin perder consistencia. Un fallo pequeño en la mitad del proceso puede invalidar toda la argumentación.

Ese requisito se parece a lo que se espera de sistemas de IA más generales. Si un modelo va a encargarse de tareas complejas, necesita corregirse cuando se equivoca y sostener una línea lógica extensa. Desde esa perspectiva, entrenarse con matemáticas no sería un objetivo aislado, sino un camino hacia capacidades de razonamiento transferibles a otros dominios.

Bubeck comparó esa idea con la formación humana. Las personas estudian matemáticas no solo para operar números, sino para desarrollar pensamiento lógico y disciplinado. OpenAI espera que algo parecido ocurra con sus modelos. Si aprenden a razonar mejor en matemáticas, esa mejora debería extenderse a biología, química, física y otros entornos científicos.

El investigador evitó atribuir el salto a un solo factor. Dijo que el progreso no provino únicamente del escalado de los grandes modelos de lenguaje. También respondió a innovación en múltiples frentes de investigación, además del uso de herramientas. En su marco, la pregunta de si “solo” escalar modelos bastaría era una mala forma de plantear el debate.

Problemas de Erdős, búsqueda bibliográfica y matemática original

Uno de los pasajes más llamativos de la conversación giró en torno a los problemas asociados con Paul Erdős, uno de los matemáticos más prolíficos del siglo XX. Bubeck recordó que publicó cerca de 1.500 trabajos y que su legado incluye cientos de preguntas, muchas de ellas recopiladas en un sitio mantenido por Thomas Bloom, quien sigue el estatus de alrededor de 1.000 problemas abiertos o parcialmente resueltos.

Cuando los modelos comenzaron a mostrar capacidades de investigación, OpenAI probó algunos de esos problemas. Bubeck explicó que, en varios casos, el sistema devolvió soluciones para preguntas que figuraban como abiertas. Sin embargo, hizo una distinción importante. Al menos en un primer caso, no se trató de una demostración nueva nacida de cero, sino de una búsqueda bibliográfica profunda que conectó literatura de campos distintos para encontrar una respuesta ya existente, aunque no reconocida en ese contexto.

El matiz fue relevante porque, según contó, parte del público interpretó esos resultados como si la IA hubiera resuelto de forma original 10 problemas difíciles y completamente inéditos. Dijo que esa no fue la situación inicial y mencionó una discusión pública con Demis Hassabis sobre cómo comunicar ese tipo de avances sin exagerar.

Aun así, Bubeck sostuvo que el panorama cambió rápido. Señaló que meses después ya disponían de más de 10 soluciones verdaderamente nuevas a problemas de Erdős, publicables en revistas de primer nivel en combinatoria, obtenidas con ayuda de ChatGPT y modelos internos. A su juicio, eso demuestra una aceleración muy fuerte en lapsos de solo unos meses.

Del asistente académico al “auto-investigador”

Ambos investigadores describieron la relación actual entre matemáticos y modelos como una interacción tipo profesor-estudiante. El humano plantea el problema, revisa ideas, corrige errores y vuelve a orientar el trabajo. La diferencia es que los ciclos de ida y vuelta ahora pueden comprimirse de semanas a horas.

Sin embargo, OpenAI cree que ese formato no bastará para los avances más profundos. Bubeck presentó entonces la noción de “tiempo AGI”, una manera de medir cuánto tiempo puede sostener la IA un proceso cognitivo equiparable al de una persona. Según su resumen, en pocos años se pasó de segundos a minutos, luego a horas, días y alrededor de una semana.

La próxima meta sería extender esa duración a semanas o incluso meses. Ahí aparece la idea del “auto-investigador”, un sistema o conjunto de sistemas capaces de trabajar de forma autónoma durante periodos prolongados, con memoria, organización del trabajo y revisiones continuas. Bubeck admitió que nadie sabe con precisión cómo lograrlo todavía, pero lo consideró una dirección clara de investigación.

Ryu reforzó esta visión con una analogía al uso de Codex en programación. Dijo que, aunque una conversación individual tiene longitud limitada, el trabajo puede apoyarse en repositorios grandes, notas resumidas y sesiones extensas. En matemáticas, imaginó algo similar: sistemas capaces de manejar mucho más de 50 páginas de pensamiento, organizando el proceso en notas y resúmenes tal como hacen los investigadores humanos a lo largo de meses o años.

Más ciencia, no menos científicos

Pese al entusiasmo, la conversación incluyó advertencias claras. Bubeck expresó preocupación por el riesgo de entregar “las llaves del castillo” a la IA y conformarse con explicaciones simplificadas sin hacer el trabajo duro de entender en profundidad. A su juicio, eso puede generar una comprensión más superficial y una pérdida gradual de habilidades críticas.

Los dos rechazaron la idea de que el avance de estos sistemas volverá innecesarios a los científicos. Bubeck fue enfático al decir que hace falta más ciencia que nunca y, por tanto, más científicos bien formados. Lo que cambiará será la productividad. Un investigador equipado con estas herramientas podría hacer más, avanzar más rápido y explorar terrenos antes inaccesibles.

Ryu también resaltó que la verificación seguirá siendo clave. Aunque la IA ya ayuda a detectar errores en artículos y revisar pruebas, las matemáticas publicadas contienen con frecuencia errores menores e incluso fallos graves. La posibilidad de que estos sistemas aceleren la revisión y el chequeo es prometedora, pero no sustituye la responsabilidad humana ni el peso reputacional de firmar una demostración correcta.

En el cierre, ambos coincidieron en que la matemática podría volverse más divertida, más interconectada y más accesible. Resultados olvidados en nichos especializados podrían ser reutilizados décadas después gracias a la capacidad de la IA para leer y conectar literatura dispersa. Para OpenAI, ese mismo patrón podría replicarse en el resto de la ciencia, siempre que el criterio humano siga definiendo qué problemas vale la pena resolver.


Imagen original de DiarioBitcoin, creada con inteligencia artificial, de uso libre, licenciada bajo Dominio Público.

Este artículo fue escrito por un redactor de contenido de IA y revisado por un editor humano para garantizar calidad y precisión.


ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.

Suscríbete a nuestro boletín