
Glyph revoluciona el procesamiento de texto en IA al convertir palabras en imágenes. La nueva técnica desarrollada por investigadores de Tsinghua University y Zhipu AI promete ampliar los límites de los modelos de lenguaje al representar textos como imágenes.
***
- Glyph convierte largos textos en imágenes para procesarlos con modelos multimodales.
- Logra una compresión de hasta 4 veces sin sacrificar precisión.
- Supera a modelos líderes como Qwen3 en pruebas de comprensión de textos extensos.
🔍 Innovación en IA: Glyph transforma textos en imágenes
Investigadores de Tsinghua y Zhipu AI desarrollan Glyph, un método que comprime textos extendidos en “tokens visuales”.
Esto permite procesar documentos de 180,000 palabras en solo 80,000 tokens, aumentando la precisión… pic.twitter.com/fI9UOmQ6ZA
— Diario฿itcoin (@DiarioBitcoin) October 22, 2025
Los modelos de lenguaje de gran tamaño (LLM), como GPT o Llama, han revolucionado la interacción con la inteligencia artificial. Sin embargo, aún enfrentan una limitación fundamental: la cantidad máxima de texto que pueden procesar en una sola sesión, conocida como “ventana de contexto”. Este límite impide analizar documentos extensos, como libros o investigaciones completas, sin dividirlos en partes.
Una nueva forma de entender el texto: convertirlo en imagen
Investigadores de Tsinghua University y Zhipu AI presentaron Glyph, un método innovador que transforma los textos en imágenes para ser comprendidos por modelos de visión y lenguaje (VLM).
En lugar de ampliar los límites del texto, Glyph reduce la cantidad de tokens (fragmentos de texto) al comprimir la información visualmente.
Esta estrategia permite que un modelo multimodal interprete las palabras no solo como secuencias de caracteres, sino también como elementos visuales con estructura, formato y contexto.
Según los investigadores, un texto de más de 180.000 palabras, equivalente a unas 240.000 unidades de tokens, puede reducirse a cerca de 80.000 “tokens visuales” sin perder contenido semántico.
Cómo funciona Glyph
El sistema parte de un modelo visual existente, como GLM-4V-9B, que es entrenado de forma continua con imágenes de texto renderizado. Este proceso incluye tareas de reconocimiento óptico de caracteres (OCR), reconstrucción de texto a partir de imágenes y generación de respuestas a partir de fragmentos visuales.
Posteriormente, Glyph utiliza un algoritmo genético impulsado por un LLM para optimizar la forma en que se “dibuja” el texto. Ajusta variables como tamaño de fuente, resolución o distribución del contenido para lograr un balance entre densidad y legibilidad.
Finalmente, el modelo pasa por una fase de entrenamiento supervisado con pares de preguntas y respuestas basadas en imágenes, seguido de una etapa de aprendizaje por refuerzo que afina la coherencia de las respuestas.
Resultados: más compresión, misma precisión
Las pruebas realizadas con LongBench y otros conjuntos de datos mostraron que Glyph iguala o supera el rendimiento de modelos avanzados como Qwen3-8B, alcanzando un 50,56 % de precisión frente al 47,46 % del modelo competidor.
En términos de eficiencia, logró una compresión de tres a cuatro veces, reduciendo el uso de memoria y acelerando la fase de procesamiento inicial hasta en 4,8 veces. Además, mejoró la comprensión de documentos reales, elevando los puntajes F1 en un 12 %.
Los investigadores señalaron que los componentes de búsqueda genética y OCR fueron esenciales: al retirarlos, el rendimiento disminuyó drásticamente.
Implicaciones para el futuro de la IA
Glyph podría redefinir cómo las IA manejan información a gran escala. Su enfoque visual permite procesar materiales extensos —como investigaciones científicas, códigos de software o textos legales— sin necesidad de dividirlos.
El equipo de Tsinghua y Zhipu AI publicó su código y modelos en GitHub, invitando a otros investigadores a expandir el método y probar nuevas configuraciones adaptativas. A pesar de desafíos pendientes, como la sensibilidad al formato o dificultades con caracteres no textuales, la propuesta marca un punto de inflexión en el camino hacia modelos multimodales verdaderamente escalables y eficientes.
Imagen original de DiarioBitcoin, creada con inteligencia artificial, de uso libre, licenciada bajo Dominio Público.
Este artículo fue escrito por un redactor de contenido de IA y revisado por un editor humano para garantizar calidad y precisión.
ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.
Suscríbete a nuestro boletín
Artículos Relacionados

África podría generar hasta 230 millones de empleos con inteligencia artificial, estima Microsoft

OpenAI revoluciona la experiencia web con ChatGPT Atlas, su nuevo navegador con IA

OpenAI se alía con Bryan Cranston y SAG-AFTRA para frenar los deepfakes creados con Sora
