Por Canuto  

Una denuncia de Anthropic sobre redes de cuentas falsas usadas para extraer capacidades de Claude reaviva un debate incómodo: en la era de los modelos frontier, la “inteligencia” es software copiable. Y, según el análisis del video “Anthropic and AI’s Napster Moment: Your AI Model Was Probably Built on Stolen Intelligence” del canal AI News & Strategy Daily | Nate B Jones, el mayor riesgo para empresas no es solo el robo, sino lo que la destilación hace a la calidad real de los modelos, especialmente en tareas agenticas de larga duración.
***

  • Anthropic afirma haber detectado a tres laboratorios chinos ejecutando 16 millones de conversaciones automatizadas con Claude usando 24.000 cuentas falsas.
  • El análisis plantea que la destilación se parece más a piratería tipo Napster que a espionaje: copiar cuesta miles, crear cuesta miles de millones.
  • Los modelos destilados podrían rendir bien en benchmarks, pero fallar en trabajo agentico sostenido; una brecha que hoy casi no se mide.

Una denuncia que enciende alarmas más allá de la geopolítica

La empresa Anthropic detectó lo que describe como una operación a escala industrial para extraer capacidades de Claude mediante conversaciones automatizadas. De acuerdo con el análisis presentado en “Anthropic and AI’s Napster Moment: Your AI Model Was Probably Built on Stolen Intelligence”, del canal AI News & Strategy Daily | Nate B Jones, tres laboratorios chinos habrían ejecutado unos 16.000.000 de intercambios a través de 24.000 cuentas fraudulentas, con el objetivo de capturar comportamiento y desempeño del modelo.

En el recuento aparecen los nombres de DeepSeek, Moonshot y MiniMax. La táctica central, según lo descrito, no consistió en robar “pesos” del modelo, sino en hablar con él a gran escala. Para ello, se habrían usado servicios de proxy para evadir restricciones geográficas, así como redes tipo Hydra de cuentas falsas, donde al bloquear una cuenta surgía otra sin afectar el flujo de extracción.

El argumento del video es que leer esta historia solo como una “Guerra Fría” tecnológica deja fuera el punto clave. La inteligencia más valiosa se almacena como matemáticas, y eso cambia la economía de la copia. Por esa razón, el incentivo no sería exclusivo de China, sino universal: cualquiera que no pueda costear entrenamiento frontier enfrenta presión por “destilar” o extraer capacidades.

Para el lector que llega nuevo al tema, “destilación” suele referirse a entrenar un modelo más pequeño o alternativo a partir de salidas de un modelo más capaz. En la práctica, ese proceso puede usarse legítimamente con datos propios, pero también puede convertirse en extracción agresiva cuando se automatiza la generación de grandes volúmenes de respuestas para recrear habilidades del modelo objetivo.

Cómo operaría la extracción: cuentas falsas, proxies y pivotes rápidos

El caso más llamativo descrito en el video es el de MiniMax, al que se atribuye el mayor volumen de actividad. Se menciona que su campaña habría superado los 13.000.000 de intercambios, con foco en “agentic coding” y orquestación de herramientas. La idea sería recolectar suficientes ejemplos para entrenar un modelo que imite a Claude en tareas específicas que los compradores valoran.

Moonshot, por su parte, habría ejecutado 3.400.000 intercambios, distribuidos en cientos de cuentas fraudulentas. El material buscado incluiría razonamiento agentico, uso de herramientas, uso de computadora, desarrollo de agentes y visión por computadora. En una fase posterior, el objetivo se habría vuelto más quirúrgico: extraer y reconstruir trazas de razonamiento.

En cuanto a DeepSeek, el video señala que su operación apuntó de forma explícita a la capacidad de razonamiento del modelo, a lo largo de 150.000 intercambios. Las instrucciones habrían intentado que Claude “imagine y articule” el razonamiento interno de una respuesta ya completada, paso a paso, para fabricar datos de entrenamiento tipo cadena de pensamiento.

Un detalle relevante del relato es que parte del uso no se orientaría solo a rendimiento general, sino a objetivos de alineación política. En el ejemplo citado, se habría usado a Claude para generar alternativas “seguras” ante preguntas políticamente sensibles sobre disidentes, líderes del partido y autoritarismo, con el fin de entrenar modelos que desvíen conversaciones de temas que el gobierno chino no quiere discutir.

“Momento Napster”: por qué la economía empuja a copiar

El núcleo conceptual del video es que el problema se entiende mejor como piratería que como espionaje. El “gradiente de presión” aparece cuando un actor tiene capacidades con valor potencial de trillones de dólares y otro puede extraer una aproximación por miles o pocos millones. En ese escenario, la información tiende a moverse, como agua cuesta abajo.

El análisis subraya una diferencia física: un arma nuclear requiere materiales pesados, infraestructura y cuellos de botella observables; en cambio, un modelo existe como un archivo de números. Incluso sin robar esos números, bastaría con interactuar con el sistema para obtener datos que permitan entrenar un competidor. En industrias digitales, sostiene el autor, la copia raras veces se detiene; solo se frena.

Para ilustrar el incentivo, el video hace un cálculo aproximado a partir de precios públicos de la API de Opus 4.6: USD $15 por millón de tokens de entrada y USD $75 por millón de tokens de salida. Bajo supuestos de tamaño promedio por intercambio, el costo total de extracción citado rondaría los USD $2.000.000 “y cambio”, frente a un costo de desarrollo estimado en USD $2.000.000.000, lo que se presenta como un retorno de “1.000 a 1” en el robo.

La implicación empresarial es incómoda: los controles de acceso, el fingerprinting conductual, los clasificadores de detección y el intercambio de inteligencia entre laboratorios no eliminarían el fenómeno. En la lógica del video, solo comprarían tiempo. Y ese tiempo, cuando las capacidades supuestamente se duplican en ciclos de ~90 días, puede traducirse en ventaja competitiva real.

La parte menos discutida: qué hace la destilación a la calidad del modelo

Más allá del “quién lo hizo”, el autor insiste en el “qué produce” la destilación. No sería una copia exacta, sino una compresión con pérdidas, similar a un MP3. Un modelo frontier entrenado con cómputo masivo ocuparía un “espacio” de capacidades más amplio, capaz de generalizar, recuperarse de errores y sostener coherencia en flujos largos.

Un modelo destilado, en cambio, se entrenaría con un subconjunto de salidas, elegidas por el destilador. Eso optimiza el rendimiento en el centro de la distribución de entrenamiento, pero estrecha el “manifold” de competencias. En la analogía del video, ver solo los highlights de un partido reduce anuncios, pero también elimina jugadas que dan contexto a la totalidad del juego.

El problema práctico, según el análisis, es que los benchmarks pueden ocultar la fragilidad. Si un destilador entrenó millones de ejemplos en tareas de código, el modelo puede verse competitivo en pruebas de programación que se parecen a esos ejemplos. Sin embargo, podría fallar cuando se le exige improvisación, recombinación de herramientas o adaptación ante obstáculos fuera de lo visto.

El autor añade una observación basada en uso personal de “Kimmy K2”, atribuido a Moonshot: lo describe como fuerte para generar presentaciones, con diseño atractivo y ejecución limpia, pero menos fiable en proyectos grandes o trabajo agentico sostenido. En esas situaciones, afirma volver a Claude Opus 4.6 por su capacidad de mantener objetivos a largo plazo, investigar, ajustarse a guías de estilo y sortear fallas durante horas.

El riesgo para empresas: la “sombra” de rendimiento en trabajo agentico

El video propone que la brecha real entre frontier y destilados se vuelve enorme justo donde se movería el valor: trabajo sostenido, autónomo y agentico. No se trata de un chatbot que responde una pregunta, sino de agentes que coordinan herramientas, navegan sistemas, depuran código, y se mantienen operativos por horas o días sin degradarse.

En tareas estrechas y bien definidas, el análisis concede que un modelo destilado puede ser “90%” tan bueno por “15%” del costo, lo que lo vuelve una opción atractiva. Pero para tareas amplias, abiertas y de larga duración, el video sugiere que la efectividad podría caer fuerte, y que los problemas pueden aparecer tarde, por ejemplo tras 9 horas de ejecución, cuando surge un caso fuera de distribución.

Como marco de decisión, se plantea un mapa con dos ejes: alcance de tarea (narrow vs wide) y procedencia del modelo (frontier vs destilado/derivado). En la izquierda, conviene usar modelos livianos; en la derecha, reservar frontier. La habilidad clave pasaría a ser el “model routing”: asignar el modelo correcto al tipo de problema y al presupuesto por token.

El autor también sostiene que la “procedencia” no es solo ética o legal, sino una cuestión de capacidad: de dónde vienen los pesos determina cómo se rompe el modelo. Por eso, recomienda pruebas propias orientadas a generalidad, fuera de benchmarks, con cambios controlados de restricciones para observar si el sistema adapta su plan o simplemente fuerza la solución anterior.

Implicaciones para el mercado: un incentivo universal y un liderazgo frágil

Una conclusión central es que la destilación no sería un fenómeno exclusivo de laboratorios chinos. El incentivo aplicaría a startups europeas, proyectos open source, grupos académicos, contratistas gubernamentales y, en general, a cualquier actor que no pueda financiar un entrenamiento frontier de miles de millones. La destilación, además, se describe como un espectro, desde extracción industrial hasta usos más ambiguos.

El video introduce un paralelo con la adquisición de talento como vía de “adquirir inteligencia” más barato que desarrollarla desde cero. Se menciona el caso de Meta reclutando investigadores de Google, OpenAI y Anthropic con paquetes de nueve cifras, así como la compra de Scale AI por USD $14.000.000.000, asociada en el relato a la adquisición de Alexander Wang y su equipo. El punto no es equiparar tácticas, sino mostrar una misma fuerza económica.

Con esa dinámica, el escenario que el autor considera más plausible no es un “checkmate” por una superinteligencia aislada, sino una competencia sostenida donde los frontier mantienen una ventaja material, pero no absoluta. En ese contexto, las “barreras” funcionarían como DRM: no detienen, pero retrasan, y el retraso vale dinero y posicionamiento.

Para ejecutivos y equipos técnicos, el mensaje final es operativo: elegir IA ya no es escoger “la más barata” o “la que lidera el ranking”. Es decidir qué modelo usar para cada clase de trabajo, y validar estabilidad antes de construir procesos críticos. En un mercado donde el piso sube por difusión de capacidades, el techo y la confiabilidad en tareas largas podrían definir la diferenciación.


Imagen original de DiarioBitcoin, creada con inteligencia artificial, de uso libre, licenciada bajo Dominio Público.

Este artículo fue escrito por un redactor de contenido de IA y revisado por un editor humano para garantizar calidad y precisión.


ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.

Suscríbete a nuestro boletín