Por Canuto  

Anthropic afirma haber detectado campañas “a escala industrial” que habrían usado miles de cuentas y servicios proxy para extraer capacidades de Claude mediante destilación. La empresa señala a DeepSeek, Moonshot y MiniMax, y advierte que el problema no solo es comercial: también podría debilitar salvaguardas críticas y tensionar el debate sobre controles de exportación en IA.
***

  • Anthropic atribuye a DeepSeek, Moonshot y MiniMax más de 16 millones de interacciones con Claude mediante unas 24.000 cuentas fraudulentas.
  • La empresa sostiene que la destilación ilícita busca copiar razonamiento agéntico, uso de herramientas y programación, y que los modelos resultantes podrían perder salvaguardas.
  • Anthropic dice que ya desplegó detección, controles de acceso y contramedidas, y pide una respuesta coordinada entre industria, nubes y responsables políticos.

 


Qué denunció Anthropic y por qué importa

Anthropic informó que identificó campañas “a escala industrial” atribuibles a tres laboratorios de IA, DeepSeek, Moonshot y MiniMax, orientadas a extraer de manera ilícita capacidades de Claude. Según la empresa, estos actores generaron más de 16 millones de interacciones a través de aproximadamente 24.000 cuentas fraudulentas, en violación de sus términos de servicio y de restricciones de acceso regional.

El núcleo de la denuncia gira en torno a la “destilación”, una técnica de entrenamiento en la que un modelo menos capaz aprende a partir de las salidas de uno más potente. Anthropic remarca que la destilación es un método legítimo y común, por ejemplo cuando un laboratorio reduce su propio modelo para ofrecer versiones más pequeñas y baratas. El problema aparece, sostiene la compañía, cuando un competidor destila modelos ajenos para acortar tiempo y costos de desarrollo.

La firma afirma que estas campañas están aumentando en intensidad y sofisticación, y que la ventana para actuar es estrecha. También plantea que la amenaza excede a una empresa o a una región específica, lo que elevaría el caso desde una disputa corporativa hacia un tema de coordinación sectorial. En su publicación, Anthropic llama a una respuesta rápida entre actores de la industria, proveedores de nube, responsables políticos y la comunidad global de IA.

Para lectores nuevos, este tipo de ataques se entiende mejor como “extracción de conocimiento” a gran escala: se lanzan millones de consultas cuidadosamente diseñadas para obtener respuestas útiles como datos de entrenamiento. En la práctica, la operación se puede camuflar como uso normal de una API, pero el patrón agregado del tráfico suele revelar automatización, coordinación y objetivos específicos. Anthropic dice que allí encontró señales consistentes con una extracción deliberada de capacidades.

Riesgos de seguridad nacional y modelos sin salvaguardas

Anthropic argumenta que los modelos destilados ilícitamente pueden carecer de salvaguardas, lo que generaría riesgos significativos para la seguridad nacional. La empresa explica que, al igual que otros desarrolladores estadounidenses, construye sistemas para impedir que actores estatales y no estatales usen la IA en actividades como el desarrollo de armas biológicas o acciones cibernéticas maliciosas. En su visión, un modelo destilado a partir de salidas podría conservar capacidad, pero perder barreras de seguridad.

Según el análisis de Anthropic, la proliferación de modelos con protecciones debilitadas abre el camino para que capacidades peligrosas se difundan con menos control. El riesgo aumentaría si esos modelos se publican como código abierto, porque las capacidades podrían propagarse libremente más allá del control de cualquier gobierno. La empresa plantea este punto como un multiplicador de impacto, no como un escenario hipotético aislado.

En su publicación, Anthropic también afirma que laboratorios extranjeros podrían integrar estas capacidades en sistemas militares, de inteligencia y vigilancia. En ese marco, menciona posibles usos por parte de gobiernos autoritarios para operaciones cibernéticas ofensivas, campañas de desinformación y vigilancia masiva. La empresa lo presenta como una preocupación estructural: la destilación ilícita, dice, puede acelerar la difusión de IA avanzada sin los mismos límites.

En el contexto de mercados tecnológicos, esta discusión se conecta con la competencia por modelos y con los incentivos de reducir costos. Para inversores y observadores, el detalle clave es que la destilación ilegal no es solo “copiar”, sino capturar comportamientos diferenciadores de modelos líderes. Anthropic afirma que las campañas se enfocaron en razonamiento agéntico, uso de herramientas y programación, áreas críticas para productos de agentes y automatización.

Controles de exportación: cómo la destilación complica el debate

Anthropic indicó que ha apoyado consistentemente los controles de exportación para ayudar a mantener el liderazgo de Estados Unidos en IA. En su postura, los ataques de destilación minan esos controles al permitir que laboratorios extranjeros reduzcan la brecha competitiva por vías distintas al entrenamiento tradicional. La empresa incluye en su argumento a laboratorios que, según dice, están bajo control del Partido Comunista Chino.

Un punto central del comunicado es el problema de visibilidad. Sin pruebas sobre ataques de destilación, los avances rápidos de algunos laboratorios pueden interpretarse como señal de que los controles de exportación son ineficaces. Anthropic sostiene lo contrario: que esos avances dependerían en gran parte de capacidades extraídas de modelos estadounidenses, y que eso distorsiona el análisis público sobre la efectividad de las restricciones.

La empresa también conecta la destilación con el acceso a cómputo. Señala que ejecutar extracción a escala requiere acceso a chips avanzados, y que por eso estos ataques “refuerzan la lógica” de los controles de exportación. En su narrativa, restringir chips limita tanto el entrenamiento directo como la escala de la destilación ilícita.

Para el sector, la implicación es doble: por un lado, se discuten barreras de hardware y políticas; por otro, se endurecen defensas en APIs y plataformas. El texto de Anthropic sugiere que la destilación ilícita ya opera como un vector de competencia, y que el debate regulatorio no puede ignorar las dinámicas de extracción de datos vía servicios y cuentas falsas.

Lo que Anthropic dice haber encontrado: patrones y atribución

Anthropic explicó que las tres campañas siguieron un guion similar: uso de cuentas fraudulentas y servicios de proxy para acceder a Claude a gran escala, mientras evitaban la detección. Según la empresa, el volumen, la estructura y el enfoque de los mensajes no se parecían al uso normal, y apuntaban a extracción deliberada de capacidades. También asegura que los objetivos fueron los rasgos más diferenciados del modelo, como razonamiento agéntico, uso de herramientas y programación.

La compañía afirma que atribuyó cada campaña a un laboratorio específico con alta confianza. Para ello, dice que correlacionó direcciones IP, metadatos de solicitudes, indicadores de infraestructura y, en algunos casos, corroboración de socios de la industria que habrían observado los mismos actores y comportamientos en sus plataformas. No detalla públicamente todos los indicadores, pero presenta el método como una triangulación técnica y contextual.

Como contexto, en el mundo de APIs de IA el tráfico malicioso puede disfrazarse con cuentas dispersas, pagos variados y ruteo mediante proxies. Por eso, los “patrones” suelen pesar más que una sola solicitud. Anthropic ejemplifica que un mensaje individual puede lucir inocuo, pero cuando variantes del mismo prompt llegan decenas de miles de veces a través de cientos de cuentas coordinadas, el objetivo se vuelve claro.

La empresa describe marcas típicas de estos ataques: volumen masivo concentrado en pocas capacidades, estructuras altamente repetitivas y contenido que mapea de forma directa a lo más valioso para entrenar un modelo. En otras palabras, no se trataría de usuarios explorando el sistema, sino de un pipeline de recolección de datos para entrenamiento y refuerzo a gran escala.

DeepSeek: 150.000 interacciones y extracción de razonamiento

En el caso de DeepSeek, Anthropic reportó una escala de más de 150.000 interacciones. Según su descripción, la operación apuntó a capacidades de razonamiento en tareas diversas, a evaluaciones basadas en rúbricas donde Claude funcionaría como modelo de recompensa para aprendizaje por refuerzo, y a la creación de alternativas seguras frente a consultas políticas sensibles.

Anthropic sostiene que DeepSeek generó tráfico sincronizado a través de cuentas, con patrones idénticos, métodos de pago compartidos y coordinación temporal. La empresa interpreta estas señales como una forma de “balanceo de carga” para aumentar rendimiento, mejorar confiabilidad y evitar detección. El señalamiento es importante porque sugiere automatización organizada, no simples pruebas.

La publicación destaca una técnica específica: mensajes que pedían a Claude imaginar y articular el razonamiento interno detrás de una respuesta completa, y escribirlo paso a paso. Según Anthropic, esto generaba datos de entrenamiento en cadena de pensamiento a escala. También afirma que observó tareas donde Claude se usaba para producir alternativas seguras a consultas políticas sensibles, con el fin de entrenar modelos de DeepSeek para desviar conversaciones de temas censurados.

La empresa añade que, al examinar metadatos de solicitudes, pudo rastrear cuentas hacia investigadores específicos dentro del laboratorio. No publica identidades en el texto citado, pero usa ese detalle para reforzar la atribución. En conjunto, el caso de DeepSeek se presenta como una campaña orientada tanto a razonamiento como a control de conversación en ámbitos sensibles.

Moonshot AI: 3,4 millones de interacciones y enfoque en agentes y visión

Para Moonshot AI, creador de los modelos Kimi, Anthropic afirma haber observado más de 3,4 millones de interacciones. Según su reporte, la operación buscó razonamiento agéntico y uso de herramientas, programación y análisis de datos, desarrollo de agentes de uso computacional y visión por computadora. Es una lista amplia, consistente con un intento de cubrir capacidades clave para productos de agentes.

Anthropic indica que Moonshot empleó cientos de cuentas fraudulentas mediante múltiples vías de acceso. Esa variedad, según la empresa, hizo más difícil detectar la campaña como una operación coordinada. Esta observación sugiere una evolución táctica: en vez de concentrarse en un solo canal, se diversifica el acceso para diluir señales.

La atribución, dice Anthropic, se apoyó en metadatos de solicitudes que coincidían con perfiles públicos de personal senior de Moonshot. En una fase posterior, la compañía afirma que Moonshot adoptó un enfoque más dirigido, intentando extraer y reconstruir trazos de razonamiento de Claude. El detalle apunta de nuevo a una búsqueda explícita de señales de “cómo piensa” el modelo.

Para el lector, el trasfondo es que las capacidades agénticas y de herramientas suelen ser diferenciadores comerciales. Quien logre replicarlas puede competir más rápido en mercados de asistentes, automatización y análisis. Anthropic sugiere que por eso el ataque se concentra en áreas de alto valor, más que en conversación generalista.

MiniMax: 13 millones de interacciones y un pivote en 24 horas

El caso de MiniMax aparece como el de mayor escala en el reporte de Anthropic, con más de 13 millones de interacciones. La empresa afirma que la operación se enfocó en programación agéntica y uso y orquestación de herramientas. En el contexto de IA, esto se vincula con agentes que ejecutan acciones, coordinan APIs y resuelven tareas complejas con herramientas externas.

Anthropic dice que atribuyó la campaña a MiniMax mediante metadatos de solicitudes e indicadores de infraestructura, y que confirmó sincronizaciones con la hoja de ruta pública de productos de esa empresa. Ese cruce sugiere que la recolección de datos podría alinearse con hitos de desarrollo y lanzamientos, según la narrativa del comunicado.

Un elemento distintivo de este caso es que Anthropic asegura haber detectado la campaña mientras aún estaba activa, antes de que MiniMax lanzara el modelo que entrenaba. La empresa describe esta situación como una visibilidad “sin precedentes” sobre el ciclo de vida de ataques de destilación, desde la generación de datos hasta el lanzamiento de un modelo. Esa afirmación apunta a que lograron observar el ataque en tiempo real y no solo a posteriori.

Además, Anthropic señala que cuando lanzó un nuevo modelo durante la campaña activa de MiniMax, el actor pivotó en menos de 24 horas. Según el texto, MiniMax redirigió casi la mitad de su tráfico para capturar capacidades del sistema más reciente. De ser correcto, el dato mostraría agilidad operativa y una intención clara de mantener la extracción sobre lo más actualizado.

Cómo se elude el acceso regional: proxies y “clústeres de hidra”

Anthropic indicó que, por razones de seguridad nacional, actualmente no ofrece acceso comercial a Claude en China ni a subsidiarias de empresas ubicadas fuera del país. Según la compañía, para eludir estas limitaciones los laboratorios usan servicios de proxy comerciales que revenden acceso a Claude y a otros modelos avanzados a escala. El comunicado enmarca a estos intermediarios como parte del problema operativo.

La empresa describe arquitecturas de “clúster de hidra”, redes extensas de cuentas fraudulentas que distribuyen tráfico a través de la API y plataformas en la nube de terceros. La metáfora apunta a resiliencia: si se bloquea una cuenta, aparece otra, y no existiría un único punto de falla. Para Anthropic, esta estructura permite sostener campañas prolongadas y grandes volúmenes sin caer fácilmente.

Anthropic afirma que, en un caso, una sola red de proxy gestionó más de 20.000 cuentas fraudulentas simultáneamente. También señala que estas redes mezclan tráfico de destilación con solicitudes de clientes no relacionadas, lo que dificulta detectar el abuso. Ese camuflaje, según el texto, busca diluir señales y complicar la atribución.

Una vez obtenido el acceso, dice la empresa, los laboratorios generan grandes volúmenes de mensajes elaborados para extraer capacidades específicas. El objetivo puede ser recolectar respuestas de alta calidad para entrenamiento directo, o producir decenas de miles de tareas necesarias para aprendizaje por refuerzo. El rasgo diferencial de un ataque, remarca Anthropic, no es un prompt aislado, sino el patrón repetitivo y coordinado a gran escala.

La respuesta de Anthropic: detección, controles y contramedidas

Anthropic asegura que continúa invirtiendo en defensas para dificultar y detectar ataques de destilación. En detección, dice que construyó varios clasificadores y sistemas de huellas de comportamiento para identificar patrones de ataque en el tráfico de la API. Incluye la detección de elicitación de cadenas de pensamiento que se usarían para construir datos de entrenamiento de razonamiento.

La empresa también afirma que desarrolló herramientas para identificar actividad coordinada a través de grandes cantidades de cuentas. Este punto se relaciona con la táctica de distribuir el tráfico para evitar alertas, como describió en Moonshot y en la infraestructura de proxies. La idea, según el comunicado, es que la coordinación deja rastros aunque las cuentas sean muchas.

En intercambio de inteligencia, Anthropic reporta que comparte indicadores técnicos con otros laboratorios de IA, proveedores de nube y autoridades pertinentes. La compañía sostiene que esto ayuda a construir una imagen más holística del panorama de destilación. En controles de acceso, indica que fortaleció verificación para cuentas educativas, programas de investigación de seguridad y organizaciones de inicio, que serían vías explotadas para crear cuentas fraudulentas.

Por último, Anthropic menciona contramedidas a nivel de producto, API y modelo para reducir la efectividad de las salidas en destilación ilícita, sin degradar la experiencia de clientes legítimos. Sin embargo, cierra con una advertencia: ninguna empresa puede resolver el problema sola. Por eso afirma que publica la evidencia para que todos los interesados puedan evaluar el fenómeno y coordinar respuestas.


ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.

Suscríbete a nuestro boletín