OpenAI presentó GPT-5.4 como su modelo base “más capaz y eficiente” para trabajo profesional, con variantes Pro y Thinking, una ventana de contexto de hasta 1 millón de tokens en la API y cambios como Tool Search para abaratar el uso de herramientas. La compañía también reportó mejoras récord en benchmarks, y una reducción medible de errores frente a GPT-5.2, mientras introduce nuevas evaluaciones de seguridad enfocadas en el pensamiento continuo.
***
- GPT-5.4 llega en tres sabores: estándar, GPT-5.4 Thinking (razonamiento) y GPT-5.4 Pro (alto rendimiento).
- La API promete escala: ventana de contexto de hasta 1.000.000 de tokens y mayor eficiencia de tokens para reducir costo y latencia.
- Benchmarks y seguridad: récords en OSWorld-Verified y WebArena Verified, 83% en GDPval, menos errores que GPT-5.2 y nueva evaluación de seguridad sobre CoT.
🚀 OpenAI lanza GPT-5.4: el modelo más potente hasta la fecha.
Tres versiones disponibles: estándar, Thinking y Pro.
Contexto de 1 millón de tokens para un procesamiento más ágil.
Benchmarks mejorados, 33% menos errores que GPT-5.2.
Nuevas evaluaciones de seguridad para… pic.twitter.com/5Y9QCK0cBD
— Diario฿itcoin (@DiarioBitcoin) March 5, 2026
OpenAI lanzó GPT-5.4, un nuevo modelo base que describió como “nuestro modelo más capaz y eficiente para el trabajo profesional”. El anuncio incluye tres variantes: la versión estándar, GPT-5.4 Thinking orientada al razonamiento, y GPT-5.4 Pro optimizada para alto rendimiento.
El movimiento llega en un contexto donde la IA generativa dejó de ser una curiosidad de laboratorio para convertirse en infraestructura de productividad. En empresas y equipos técnicos, el criterio de compra suele concentrarse en precisión, costo operativo, velocidad y capacidad para sostener flujos de trabajo complejos sin degradarse.
En ese sentido, OpenAI busca posicionar GPT-5.4 como una opción lista para “trabajo profesional”, un concepto amplio que abarca desde generación de texto hasta automatización de tareas con herramientas. La idea central es que el modelo no solo responda preguntas, sino que pueda mantener objetivos, contexto y consistencia a lo largo de procesos de varios pasos.
La existencia de versiones diferenciadas también refleja una tendencia del mercado: separar modelos de uso general de modelos que priorizan razonamiento o throughput. Para muchos equipos, esa separación es clave al diseñar productos, ya que el “mejor” modelo depende de si importa más la exactitud deliberativa o el costo por volumen.
API con hasta 1 millón de tokens y foco en eficiencia
Uno de los datos más llamativos del lanzamiento es que la versión API de GPT-5.4 estará disponible con ventanas de contexto de hasta 1 millón de tokens. OpenAI lo presentó como, por mucho, el mayor tamaño de contexto que la empresa ha ofrecido hasta ahora.
En términos prácticos, una ventana de contexto más grande permite que el modelo procese y “tenga presente” más información dentro de una misma interacción. Eso puede ser relevante para analizar grandes repositorios de documentos, historiales extensos de conversación, o cargas de trabajo que mezclan múltiples fuentes sin necesidad de recortar y reinyectar fragmentos de texto.
OpenAI también enfatizó una mayor eficiencia de tokens. Según la compañía, GPT-5.4 pudo resolver los mismos problemas con significativamente menos tokens que su predecesor, lo que sugiere respuestas más compactas o procesos internos que requieren menos intercambio de texto para llegar a resultados similares.
Esta eficiencia impacta dos variables que los desarrolladores monitorean con lupa: costo y latencia. Menos tokens consumidos suele significar una factura menor y respuestas más rápidas, especialmente en productos que ejecutan muchas llamadas por usuario o que operan con cadenas de prompts y herramientas.
Mejoras récord en benchmarks y desempeño en tareas profesionales
OpenAI afirmó que GPT-5.4 llega con resultados de referencia “significativamente mejorados”. En particular, reportó puntuaciones récord en los benchmarks de uso de computadoras OSWorld-Verified y WebArena Verified, dos pruebas asociadas a la capacidad del modelo para interactuar con entornos y tareas de tipo agente.
Además, la empresa indicó que el modelo obtuvo un récord de 83% en la prueba GDPval de OpenAI para tareas de trabajo de conocimiento. Este tipo de evaluación apunta a medir rendimiento en actividades comunes de oficina y análisis, donde la calidad depende tanto de la exactitud como de la coherencia y el seguimiento de instrucciones.
La nota también incluye una referencia externa desde Mercor. De acuerdo con una declaración del CEO de esa empresa, Brendan Foody, GPT-5.4 lideró el benchmark APEX-Agents de Mercor, diseñado para evaluar habilidades profesionales en derecho y finanzas.
Foody sostuvo en esa declaración que GPT-5.4 “destaca en la creación de entregables de largo horizonte como presentaciones de diapositivas, modelos financieros y análisis legales”, y que ofrece rendimiento superior “mientras opera más rápido y a un costo menor que los modelos de vanguardia competitivos”. La afirmación subraya un punto clave del mercado: no basta con responder bien, también importa sostener procesos largos con calidad estable.
Menos errores, menos alucinaciones y una métrica clara frente a GPT-5.2
OpenAI enmarcó el lanzamiento como parte de su esfuerzo continuo por limitar alucinaciones y errores fácticos. En aplicaciones profesionales, los errores no son solo un problema de UX; pueden convertirse en riesgo operativo, reputacional o incluso legal si el sistema produce afirmaciones incorrectas con apariencia de certeza.
Según OpenAI, GPT-5.4 fue 33% menos propenso a cometer errores en afirmaciones individuales en comparación con GPT-5.2. Ese dato apunta a la precisión a nivel micro, es decir, la probabilidad de que una frase o afirmación puntual resulte incorrecta.
La empresa agregó otra métrica a nivel macro: las respuestas generales fueron 18% menos propensas a contener errores. En conjunto, estas cifras sugieren mejoras en consistencia y control de calidad, aunque el uso final depende de cómo cada producto estructure prompts, verificación y herramientas de respaldo.
Para quienes construyen soluciones en mercados financieros, cripto y compliance, estas diferencias importan porque muchos flujos de trabajo requieren citar datos, resumir documentación o comparar escenarios. Si el modelo reduce errores sin aumentar costos, se vuelve más atractivo para integraciones en procesos sensibles.
Tool Search: un cambio en llamadas de herramientas para ahorrar tokens
Como parte del lanzamiento, OpenAI reformuló cómo la versión API de GPT-5.4 gestiona la llamada de herramientas. Introdujo un sistema llamado Tool Search, diseñado para cambiar la forma en que el modelo conoce qué herramientas existen y cómo invocarlas.
Antes, los mensajes del sistema definían todas las herramientas disponibles al llamar al modelo. Ese enfoque podía consumir muchos tokens a medida que crecía el número de herramientas, un problema común en arquitecturas con decenas o cientos de funciones para buscar datos, consultar bases internas, ejecutar cálculos o interactuar con APIs externas.
Con Tool Search, el modelo puede buscar definiciones de herramientas según sea necesario. OpenAI señaló que esto resulta en solicitudes más rápidas y económicas en sistemas con muchas herramientas disponibles, porque evita cargar siempre el catálogo completo dentro del contexto.
El cambio también refleja una evolución en la ingeniería de “agentes”: a medida que aumentan las herramientas, se vuelve imprescindible optimizar la capa de orquestación. En escenarios reales, el costo no está solo en el modelo, sino en el overhead de mantenerlo informado de todo lo que podría usar.
Evaluación de seguridad para el “pensamiento continuo” y riesgo de engaño
OpenAI también incluyó una nueva evaluación de seguridad para probar el pensamiento del modelo. La prueba se centra en el comentario continuo dado por los modelos para mostrar el proceso de pensamiento a través de tareas de varios pasos, un elemento asociado a modelos de razonamiento.
Investigadores de seguridad en IA han expresado preocupación desde hace tiempo sobre la posibilidad de que los modelos de razonamiento malinterpreten u oculten su pensamiento. Según se explicó, las pruebas muestran que esto puede ocurrir bajo las circunstancias adecuadas.
La nueva evaluación de OpenAI concluye que la decepción es menos probable que ocurra en la versión Thinking de GPT-5.4. La empresa afirmó que esto “sugiere que el modelo carece de la capacidad de ocultar su razonamiento y que el monitoreo de CoT sigue siendo una herramienta de seguridad efectiva”.
El tema es relevante para cualquier despliegue que delega decisiones o acciones en un modelo, desde operaciones internas hasta automatización en trading o monitoreo de riesgos. Si un sistema no puede auditar lo que el modelo “dice que piensa”, la supervisión se complica. Por eso, evaluaciones de este tipo se han vuelto un punto central en discusiones de adopción responsable.
Imagen original de DiarioBitcoin, creada con inteligencia artificial, de uso libre, licenciada bajo Dominio Público
Este artículo fue escrito por un redactor de contenido de IA
ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.
Suscríbete a nuestro boletín
Artículos Relacionados
Pod Network explica cómo su protocolo logra velocidad (300K TPS!) con consistencia eventual y procesamiento en paralelo
OpenAI lanza GPT-5.4: agentes con uso nativo de computadora y contexto de 1 millón de tokens
Roblox lanza IA que reformula el chat en tiempo real para evitar uso de lenguaje prohibido