Por Canuto  

OpenAI presentó Images 2.0 para ChatGPT, un modelo que parece haber resuelto en buena medida uno de los problemas más visibles de la generación visual con IA: escribir texto legible dentro de las imágenes. El avance apunta a casos de uso más prácticos, desde menús y piezas publicitarias hasta historietas y diseños con interfaces complejas.
***

  • OpenAI aseguró que ChatGPT Images 2.0 mejora de forma notable la generación de texto dentro de imágenes.
  • El modelo incorpora capacidades de razonamiento, búsqueda web y creación de múltiples imágenes desde un solo prompt.
  • La empresa también afirmó que hay avances en texto no latino y en composiciones densas con resoluciones de hasta 2K.

 


Durante años, uno de los límites más evidentes de la generación de imágenes con inteligencia artificial fue su incapacidad para escribir texto de manera convincente. Carteles, menús, interfaces y etiquetas solían aparecer llenos de palabras rotas, letras deformadas o combinaciones imposibles, un detalle que delataba de inmediato que una pieza había sido creada por un modelo generativo.

Esa debilidad podría estar empezando a quedar atrás. OpenAI presentó Images 2.0 para ChatGPT, una nueva versión de su sistema de generación visual que, según la información publicada por TechCrunch, ofrece resultados sorprendentemente sólidos cuando se le pide insertar texto claro y utilizable dentro de una imagen.

La mejora no es menor. Si un sistema logra renderizar texto pequeño, iconografía, elementos de interfaz y composiciones visuales densas sin romper la coherencia, el salto práctico es considerable. Eso abre la puerta a usos más cercanos al diseño comercial cotidiano, en lugar de limitarse a imágenes llamativas pero con fallos notorios.

El ejemplo citado en la cobertura es simple y revelador. Al pedirle al nuevo modelo un menú de comida mexicana, el sistema produjo un resultado que, según la autora, podría usarse en un restaurante sin que los clientes detecten algo extraño a primera vista. El comentario irónico fue que un ceviche con precio de USD $13,50 todavía podría despertar dudas, pero no por errores tipográficos, sino por la calidad del pescado.

De los errores absurdos a resultados listos para usar

La comparación con generaciones previas ayuda a dimensionar el cambio. Hace apenas dos años, pedir a un generador de imágenes un menú similar podía terminar en una colección de palabras inventadas como “enchuita”, “churiros”, “burrto” y “margartas”. Ese tipo de salidas era común y reflejaba una limitación estructural de los modelos de imagen más extendidos en ese momento.

La explicación técnica detrás de ese fenómeno ya había sido discutida por especialistas del sector. En 2024, Asmelash Teka Hadgu, fundador y CEO de Lesan AI, explicó a TechCrunch que los modelos de difusión reconstruyen una entrada a partir de ruido, y que dentro de una imagen el texto representa una porción muy pequeña de los píxeles totales.

Eso implica que el sistema aprende con mayor facilidad los patrones visuales generales que ocupan más espacio dentro de la imagen, mientras que las letras quedan relegadas. El resultado es conocido por cualquier usuario de herramientas visuales de IA: imágenes atractivas de lejos, pero inútiles cuando se necesita precisión textual.

Desde entonces, investigadores han probado mecanismos alternativos para la generación de imágenes, incluyendo modelos autorregresivos. Estos sistemas intentan predecir cómo debería verse una imagen y, en cierta medida, funcionan de una forma más parecida a los grandes modelos de lenguaje. Aunque esa línea de investigación es relevante, OpenAI no respondió una pregunta en una sesión informativa de prensa sobre qué tipo de modelo específico impulsa Images 2.0.

Qué promete OpenAI con Images 2.0

La empresa sí ofreció algunas pistas sobre las capacidades del producto. Según su explicación, el nuevo modelo integra “capacidades de razonamiento”, un término cada vez más usado en la industria para describir sistemas capaces de dividir tareas, verificar resultados y seguir instrucciones con mayor consistencia.

En este caso, OpenAI señaló que Images 2.0 puede buscar en la web, crear múltiples imágenes a partir de un solo prompt y volver a comprobar sus propias creaciones. En teoría, ese conjunto de funciones permite producir materiales de marketing en varios tamaños y también tiras cómicas de varios paneles, dos tareas donde la coherencia visual y textual suele ser difícil de mantener.

La compañía también afirmó que el modelo entiende mejor el renderizado de texto no latino en idiomas como japonés, coreano, hindi y bengalí. Ese punto es relevante porque la mayoría de los avances visibles en generación textual dentro de imágenes suelen centrarse primero en inglés, mientras que otros sistemas de escritura quedan rezagados por más tiempo.

Otro detalle importante es su ventana de conocimiento. OpenAI indicó que el modelo posee información actualizada hasta diciembre de 2025. Eso significa que ciertos prompts vinculados a noticias recientes podrían no ser interpretados con total precisión, una limitación que conviene considerar cuando se pida contenido muy atado a eventos de última hora.

En su comunicado, OpenAI sostuvo que Images 2.0 aporta un nivel “sin precedentes” de especificidad y fidelidad a la creación de imágenes. La empresa aseguró que el sistema no solo conceptualiza escenas más sofisticadas, sino que también logra seguir instrucciones, preservar detalles solicitados y renderizar elementos finos que suelen romper otros modelos, incluyendo texto pequeño, iconografía, interfaces de usuario, composiciones densas y restricciones estilísticas sutiles, con resoluciones de hasta 2K.

Más precisión, pero no instantaneidad

Ese avance, sin embargo, no llega sin costo en tiempos de generación. La cobertura indica que producir imágenes con estas capacidades no es tan rápido como escribir una pregunta normal en ChatGPT. Aun así, OpenAI sostiene que incluso una tarea compleja, como una historieta de varios paneles, puede completarse en cuestión de minutos.

Para el mercado de IA, ese equilibrio entre velocidad y calidad es uno de los temas centrales de 2026. En muchos casos, usuarios profesionales están dispuestos a esperar más si obtienen un resultado útil desde el primer intento, sobre todo cuando la alternativa es rehacer varias veces una pieza por errores mínimos pero críticos.

Esto también conecta con una tendencia más amplia en el sector tecnológico. Las nuevas generaciones de modelos visuales ya no compiten solo por producir imágenes espectaculares o estilizadas. Ahora la carrera pasa por resolver tareas concretas con menor fricción, algo esencial para diseño publicitario, prototipado de productos, educación y flujos creativos empresariales.

Si un modelo puede diseñar un menú, adaptar una campaña a varios formatos o construir una secuencia visual coherente para una historieta, entonces su valor comercial aumenta de forma inmediata. El texto correcto deja de ser un detalle estético y se convierte en una condición para la adopción real en negocios y herramientas de productividad.

Disponibilidad y acceso para usuarios

OpenAI informó que Images 2.0 estará disponible desde el martes para todos los usuarios de ChatGPT y Codex. No obstante, precisó que los usuarios de pago podrán generar resultados más avanzados, lo que sugiere una segmentación por capacidades o calidad dentro de la misma plataforma.

Además, la empresa pondrá a disposición la API gpt-image-2. El precio dependerá de la calidad y de la resolución de los resultados solicitados. Aunque no se detallaron montos en la información publicada, el esquema confirma que OpenAI busca una salida comercial tanto para consumidores finales como para desarrolladores que quieran integrar el modelo en sus propias aplicaciones.

Ese enfoque refuerza la lectura de que Images 2.0 no es solo una mejora estética dentro de ChatGPT. También es una pieza de infraestructura para expandir la presencia de OpenAI en flujos de trabajo de diseño, automatización visual y generación de contenidos en software de terceros.

Por ahora, el mayor impacto visible parece estar en la calidad del texto generado dentro de imágenes. Puede parecer un detalle menor frente a otros avances en IA, pero durante mucho tiempo fue una de las señales más obvias de inmadurez tecnológica. Si ese problema realmente comienza a resolverse, la generación visual entra en una etapa mucho más útil y competitiva.

En otras palabras, el salto no solo consiste en crear imágenes bonitas. Consiste en crear imágenes que sirvan. Y en el terreno empresarial, creativo y educativo, esa diferencia es la que suele separar una demostración prometedora de una herramienta lista para usarse.


Imagen original de DiarioBitcoin, creada con inteligencia artificial, de uso libre, licenciada bajo Dominio Público.

Este artículo fue escrito por un redactor de contenido de IA y revisado por un editor humano para garantizar calidad y precisión.


ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.

Suscríbete a nuestro boletín