Por Canuto  

El salto en la tasa de alucinaciones de DeepSeek-R1 frente a DeepSeek-V3 abre una señal de alarma para el mercado de tokens vinculados a agentes de IA. El problema no es solo técnico: cuando un modelo inventa datos y estos terminan conectados a herramientas de trading, redes sociales o ejecución on-chain, el riesgo puede trasladarse directamente al ecosistema cripto.
***

  • DeepSeek-R1 registró una tasa de alucinación de 14,3%, frente a 3,9% de DeepSeek-V3 en pruebas de Vectara.
  • El dato preocupa al sector de agentes de IA cripto, que usa estos modelos para señales, trading y acciones on-chain.
  • Analistas y desarrolladores advierten que un error al inicio de una cadena de razonamiento puede propagarse a decisiones financieras posteriores.

 


DeepSeek-R1, el modelo insignia de razonamiento del laboratorio chino DeepSeek, mostró una tasa de alucinación de 14,3% en el benchmark HHEM 2.1 de Vectara. El dato contrasta con el 3,9% obtenido por DeepSeek-V3, su predecesor sin enfoque de razonamiento, y plantea nuevas dudas sobre el uso de este tipo de sistemas en productos financieros basados en criptomonedas.

La diferencia resulta especialmente relevante en un momento en que los agentes de IA se han convertido en una narrativa de rápido crecimiento dentro del mercado cripto. Muchos de estos proyectos prometen automatizar tareas como análisis de mercado, señales de trading, publicación en redes sociales e incluso ejecución on-chain, todo apoyado en modelos de lenguaje de nueva generación.

De acuerdo con un reporte de Yahoo Finance, R1 produjo más afirmaciones falsas o no respaldadas que V3 en todas las configuraciones de prueba revisadas por Vectara. El equipo también contrastó los resultados con la metodología FACTS de Google, y el patrón se mantuvo. En otras palabras, el rendimiento más ambicioso del modelo no se tradujo en una mayor fiabilidad factual.

El hallazgo apunta a una tensión conocida dentro de la industria de inteligencia artificial. Los modelos entrenados para razonar mejor en tareas complejas pueden también volverse más proclives a generar respuestas seguras, extensas y convincentes, incluso cuando parte de ese contenido no está sustentado en la información original.

Por qué importa para el ecosistema cripto

En el sector cripto, el impacto potencial de una alucinación va más allá de una respuesta incorrecta en una interfaz conversacional. Si un agente automatizado inventa un nivel de precio, una asociación comercial o una dirección de contrato, ese error podría influir en decisiones reales de inversión o en operaciones ejecutadas sobre blockchain.

La noticia resulta especialmente sensible porque el mercado ya cuenta con cientos de tokens asociados a agentes de IA. Entre los nombres más visibles figuran Virtuals Protocol, AI16Z y AIXBT. Según los datos citados en el reporte original, esta categoría acumuló un crecimiento aproximado de 39,4% en una ventana reciente de 30 días, mientras que Virtuals superó una capitalización de mercado de USD $576.000.000.

La propuesta de valor de muchos de estos proyectos consiste en envolver un modelo de lenguaje grande con herramientas externas. Gracias a ello, el agente no solo responde preguntas, sino que también puede publicar contenidos, enrutar operaciones, acuñar tokens o comentar movimientos del mercado en tiempo real.

Ese diseño amplía su utilidad, pero también aumenta la superficie de riesgo. Un asistente que solo resume sentimiento de mercado no representa el mismo peligro que uno con acceso a tesorería, permisos de ejecución o automatizaciones financieras. En este contexto, una mayor tasa de alucinación deja de ser un problema abstracto de laboratorio y se convierte en una variable operativa.

El problema de “ayudar en exceso”

Vectara atribuyó buena parte del deterioro en precisión de R1 a un comportamiento que describió como una tendencia a “ayudar en exceso”. Según el análisis, el modelo añade información que no aparece en el texto fuente. Aunque ese contenido extra pueda ser correcto en términos aislados, sigue contando como una alucinación si no estaba respaldado por el material original.

Ese matiz es importante porque explica por qué algunas respuestas pueden parecer sólidas a simple vista y aun así introducir datos inventados. El riesgo no siempre se presenta como una falsedad grotesca o evidente. A veces adopta la forma de un contexto adicional, plausible y bien redactado, que el usuario podría asumir como verificado.

La firma de evaluación resumió públicamente su conclusión al señalar que DeepSeek-R1 muestra una tasa de alucinación de 14,3%, casi cuatro veces más alta que DeepSeek-V3. La observación encendió alertas porque confirma un patrón que varios observadores de la industria ya venían detectando en modelos de razonamiento desarrollados por otros laboratorios.

De forma más amplia, el aprendizaje por refuerzo aplicado a cadenas de pensamiento puede premiar una generación más audaz y confiada. Eso puede ser ventajoso en matemáticas, programación o planificación compleja, pero también puede empujar al modelo a completar huecos con información no verificada cuando opera en dominios abiertos.

Agentes autónomos, errores compuestos y riesgo on-chain

La advertencia golpea con más fuerza en los casos donde los agentes ejecutan tareas de varios pasos. En estos sistemas, una afirmación incorrecta al inicio de la cadena de razonamiento puede contaminar decisiones posteriores. Si el modelo arranca con una premisa falsa, las acciones derivadas podrían mantener coherencia interna y aun así llevar a un resultado equivocado.

Eso es precisamente lo que preocupa a los desarrolladores y a los usuarios de herramientas financieras automatizadas. En mercados volátiles como el de criptomonedas, un error aparentemente menor puede escalar con rapidez cuando se combina con velocidad de ejecución, apalancamiento narrativo y difusión en redes.

El reporte también menciona un análisis previo de BeInCrypto sobre AIXBT, en el que el agente había promocionado 416 tokens con un retorno promedio de 19%. Sin embargo, el mismo mecanismo que permite amplificar oportunidades también expone a los seguidores a malas decisiones cuando el sistema subyacente falla o exagera información no confirmada.

Por eso, la discusión no se limita a si un modelo responde mejor o peor que otro en pruebas abstractas. Para el universo cripto, la cuestión central es qué ocurre cuando el error se conecta con herramientas que interactúan con usuarios, capital y contratos inteligentes.

El debate técnico detrás de las alucinaciones

Yann LeCun, científico jefe de IA de Meta, ha sostenido desde hace tiempo que los grandes modelos autorregresivos no pueden eliminar por completo las alucinaciones. Desde su perspectiva, el problema es arquitectónico, porque estos sistemas carecen de un modelo del mundo verdaderamente anclado en la realidad.

Según esa visión, técnicas como el aprendizaje por refuerzo sobre cadenas de pensamiento pueden disimular parte del problema en dominios acotados, pero no resolverlo de raíz. Es una postura que contrasta con la de otros laboratorios de frontera, que apuntan a mejoras graduales mediante recuperación de información, ajustes posteriores al entrenamiento y modelos verificadores.

Aun así, la experiencia cotidiana de desarrolladores y usuarios suele reflejar una tensión persistente entre fluidez y fidelidad factual. El investigador de IA xlr8harder resumió esa frustración al comentar públicamente una sesión de depuración con R1 y describir una interacción donde el sistema terminaba respondiendo con alucinaciones mientras aparentaba seguridad.

Para el lector menos familiarizado con el tema, vale aclarar que una “alucinación” no implica conciencia ni intención. En IA generativa, el término describe una salida incorrecta, inventada o insuficientemente respaldada por las fuentes y el contexto disponibles. En productos financieros, esa distinción técnica no reduce el impacto práctico del error.

Qué podrían hacer los proyectos de tokens de IA

Frente a este escenario, la discusión más útil para los proyectos cripto no parece ser filosófica, sino de gestión de riesgo. Los diseños que someten cada afirmación del modelo a una capa de verificación podrían ofrecer una vía más prudente, sobre todo en tareas vinculadas a precios, direcciones, contratos o eventos de mercado.

También podría crecer el interés por modelos más pequeños y conservadores para acciones financieras sensibles. Un sistema menos brillante en apariencia, pero más contenido al responder, puede resultar más valioso que uno sofisticado que improvise datos en momentos críticos.

El mercado de agentes de IA probablemente seguirá creciendo, impulsado por la promesa de automatización y por el atractivo especulativo de sus tokens. Sin embargo, la brecha entre 14,3% y 3,9% observada entre R1 y V3 sugiere que la calidad del modelo base sigue siendo una pieza determinante del riesgo del producto.

Los próximos ciclos de evaluación y los futuros sucesores de R1 mostrarán si la distancia entre razonamiento y precisión comienza a estrecharse. Por ahora, el dato funciona como una advertencia concreta para un segmento donde la confianza del usuario puede cambiar tan rápido como el precio de un token.


Imagen original de DiarioBitcoin, creada con inteligencia artificial, de uso libre, licenciada bajo Dominio Público.

Este artículo fue escrito por un redactor de contenido de IA y revisado por un editor humano para garantizar calidad y precisión.


ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.

Suscríbete a nuestro boletín