Claude Opus 4.7 acelera tareas con robots y supera hasta 20 veces a equipos humanos

𝕏

Hace 1 hora

Por Canuto

Anthropic aseguró que Claude Opus 4.7 completó de forma autónoma varias tareas del Project Fetch con un robodog comercial a una velocidad muy superior a la de equipos humanos evaluados en 2025. El resultado no implica que la robótica esté resuelta, pero sí refuerza la idea de que la llamada IA agentic física podría estar acercándose más rápido de lo previsto.
***

Claude Opus 4.7 completó cada tarea terminada por al menos un equipo humano en 2025 al menos 10 veces más rápido.
En promedio, fue más de 37 veces más rápido que el equipo sin Claude y más de 18 veces más veloz que el equipo con Claude en cuatro tareas compartidas.
El modelo todavía falló en la recuperación autónoma fina de la pelota de playa, una tarea que exige control robótico de bucle cerrado.

Anthropic presentó la segunda fase de Project Fetch, una prueba interna diseñada para medir qué tanto puede hacer un modelo de IA al interactuar con un cuadrúpedo robótico comercial, al que la empresa describe informalmente como un robodog.

La conclusión central fue contundente: Claude Opus 4.7, operando sin asistencia humana directa en la ejecución técnica de las tareas evaluadas, logró completar varios objetivos mucho más rápido que los equipos humanos que participaron en la primera fase del experimento en 2025.

Según explicó la empresa, en agosto de 2025 evaluó si Claude podía ayudar a empleados no especializados en robótica a completar tareas sofisticadas y llamativas con este robot. En aquella ocasión, el equipo apoyado por Claude Opus 4.1 superó de forma clara al grupo que solo contó con internet y su propio ingenio.

Antes de ese ensayo inicial con empleados, Anthropic también había comprobado si Opus 4.1 podía realizar las tareas por su cuenta. El modelo no logró hacerlo, porque se atascó incluso en el paso preliminar de averiguar cómo conectarse al robot.

Menos de un año después, la empresa decidió repetir el ejercicio con un modelo más reciente. El nuevo resultado mostró un salto notable, ya que Claude Opus 4.7 fue aproximadamente 20 veces más rápido que el equipo humano más veloz en todas las tareas completadas por los participantes de la primera fase.

Ese dato no significa, sin embargo, que los modelos de lenguaje ya hayan resuelto la robótica. La propia empresa subrayó que los sistemas más nuevos todavía tuvieron problemas para usar el robot con precisión y mover la pelota de playa, que era la parte de “recoger” dentro del Project Fetch.

El experimento tampoco cubrió los desafíos más complejos del control robótico de bajo nivel. Entre ellos, Anthropic mencionó el desarrollo de una política de actuación específica, un aspecto central para tareas físicas más avanzadas.

Cómo se diseñó la segunda fase del experimento

En la primera versión de Project Fetch, equipos de empleados de Anthropic asignados al azar trabajaron con o sin ayuda de Claude. Sus objetivos incluían operar el robodog con el control del fabricante, conectarse a sus sensores de video y lidar, y escribir software para manejarlo.

También debían desarrollar una forma de monitorear el recorrido del robot dentro del espacio de prueba. Luego tenían que crear un programa para detectar una pelota de playa y, finalmente, integrar todo para recuperarla de manera autónoma.

Para la actualización autónoma de 2026, la empresa no le pidió a Claude que utilizara un controlador físico. Tampoco evaluó el tiempo que le tomó a un investigador usar el controlador programado por el modelo para intentar recuperar la pelota, aunque afirmó haber confirmado que ese controlador funcionaba como se esperaba.

Sobre las tareas restantes, Anthropic realizó tres ensayos con Opus 4.7 usando pensamiento adaptativo con el esfuerzo configurado al máximo dentro de Claude Code. La empresa midió el tiempo transcurrido hacia cada objetivo y evaluó cualitativamente el éxito del modelo.

El papel del investigador fue bastante acotado. Se limitó a conectar una laptop con Claude Code al robodog, ingresar el prompt inicial, aprobar comandos y autorizar que el modelo pasara a la siguiente tarea.

Ese detalle es importante porque ayuda a delimitar qué parte del rendimiento se atribuye al modelo y cuál sigue dependiendo de supervisión humana. No fue una autonomía física absoluta, pero sí una reducción marcada de la intervención humana frente a la fase previa.

Para lectores menos familiarizados con el tema, este tipo de pruebas busca medir capacidades agentic. Es decir, la habilidad de un sistema de IA para descomponer objetivos, escribir código, usar herramientas y avanzar por etapas con poca guía externa.

Dónde superó a los humanos y por qué importa

Anthropic sostuvo que en cada tarea completada por al menos un equipo humano en agosto de 2025, Opus 4.7 completó la misma tarea al menos 10 veces más rápido. Esa mejora apareció de forma consistente en las distintas pruebas incluidas en la fase dos.

Cuando se observan solo las cuatro tareas que ambos equipos humanos sí lograron completar en la primera fase, la diferencia fue todavía mayor. Opus 4.7 fue, en promedio, más de 37 veces más rápido que el equipo sin Claude y más de 18 veces más rápido que el equipo con Claude.

La empresa explicó que los humanos tuvieron dificultades para elegir entre varios enfoques posibles para interactuar con los sensores del robot. En cambio, el modelo identificó con rapidez el mejor camino técnico y avanzó sin demasiadas dudas.

Otra diferencia estuvo en la calidad del código generado en el primer intento. Gran parte del software escrito por Opus 4.7 funcionó a la primera, algo que no ocurrió con el equipo apoyado por Claude ni con el equipo que trabajó sin esa ayuda en 2025.

Anthropic dijo incluso que se puede ver evidencia de esa eficiencia en el volumen de código producido. Opus 4.7 alcanzó resultados similares o superiores a los de los equipos humanos mientras generaba casi 10 veces menos código que el Team Claude del experimento original.

Esa combinación de velocidad y concisión tiene implicaciones más amplias en IA aplicada. En entornos reales, menos código puede traducirse en menos puntos de falla, menor carga de revisión y ciclos de iteración más rápidos.

La empresa también señaló que hubo poca variación interna, en términos absolutos, en los tiempos de finalización para los pasos que el modelo sí logró completar. Eso sugiere un nivel de confiabilidad más alto dentro del rango de capacidades que el sistema ya domina.

Hubo, no obstante, una excepción visible. En uno de los ensayos de detección de la pelota de playa, el modelo tardó bastante más que en los otros, probablemente porque eligió un algoritmo de detección de objetos ya obsoleto.

Aun así, Anthropic indicó que el modelo logró sortear esa elección subóptima y llegar a una solución efectiva. Ese matiz muestra un tipo de resiliencia práctica que resulta cada vez más relevante para evaluar agentes de IA fuera de tareas puramente textuales.

Las limitaciones siguen siendo serias en el mundo físico

El mayor tropiezo de Claude apareció en la parte más fina del control físico. Los humanos, usando sus manos y algo de práctica, sí pudieron pilotar los robodogs para empujar con suavidad una pelota de playa de regreso a la base, que era un parche de césped falso.

Esa tarea exigía percibir rápidamente si la pelota se había desviado, relacionar ese error con el comando anterior, ubicar la nueva posición del objeto y ajustar las siguientes entradas. Se trata de un bucle cerrado de percepción y corrección donde las personas suelen sobresalir tras algunos intentos.

En la segunda fase, Claude tuvo dificultades para captar esa sutileza. Aunque pudo mover el robot detrás de la pelota y colocarlo en posición para devolverla al punto de partida, sus esfuerzos fueron mal controlados y no lograron completar con éxito el objetivo final.

Anthropic remarcó que este fallo no fue exclusivo del modelo. Los participantes humanos que alcanzaron la etapa de programar la recuperación autónoma de la pelota de playa también fracasaron en esa parte durante la fase inicial.

La empresa añadió un dato revelador. Uno de sus investigadores con más experiencia en robótica que los voluntarios de la primera fase sí consiguió programar con éxito la recuperación autónoma.

Eso sugiere que la dificultad no radica solo en el hardware, sino también en el nivel de expertise y en el andamiaje técnico disponible. Anthropic considera muy probable que las generaciones actuales de Claude puedan hacer lo mismo si cuentan con más tiempo y soporte adicional.

La siguiente pregunta, según la firma, no es únicamente si el modelo puede alcanzar ese resultado final. Lo que importa ahora es si podrá hacerlo con la misma velocidad y confiabilidad que ya demostró en los otros componentes del Project Fetch.

Lo que este avance sugiere para la IA agentic física

Anthropic enmarcó estos resultados dentro de un patrón que dice haber visto antes en otras áreas. Primero, los modelos son útiles para los humanos; luego, los humanos son útiles para los modelos; y finalmente, los modelos empiezan a ejecutar por sí mismos tareas que antes requerían colaboración estrecha.

La empresa afirmó que ya había observado una dinámica parecida en ciberseguridad. Ahora cree que algo similar comienza a tomar forma en la intersección entre la IA y el mundo físico.

Ese punto importa más allá del caso específico del robodog. Si un modelo puede comprender documentación, conectarse a sensores, escribir herramientas de monitoreo y resolver varios cuellos de botella técnicos en poco tiempo, entonces el valor potencial para automatización industrial y robótica de consumo aumenta de forma notable.

Anthropic sostiene que los modelos ahora pueden completar mucho más rápido lo que antes era un trabajo de programación en pareja entre humanos y sistemas de IA. En términos prácticos, eso podría permitir que las personas pasen antes a la fase de usar y controlar los robots.

Al mismo tiempo, la empresa reconoció que en ciertas tareas un humano dentro del circuito aún puede superar al modelo cuando se trata del control directo del robot. Esa observación es clave para no confundir progreso rápido con capacidad general ya resuelta.

La compañía planteó que el mundo podría estar acercándose a una etapa temprana de IA agentic física. Con esa expresión se refiere a modelos capaces de usar herramientas físicas comerciales con relativa facilidad, al menos en propósitos acotados.

Anthropic comparó este momento con la transición previa de los modelos hacia herramientas de edición de software ya existentes, como string-replace, dentro de flujos de codificación más agentic. La analogía sugiere que el hardware podría recorrer una trayectoria parecida a la del software.

La empresa dejó claro que aún hace falta mucha investigación para saber si estos modelos podrán crear herramientas físicas más personalizadas. Entre los retos pendientes citó la escritura de políticas de control adaptadas a tareas concretas y el diseño de sistemas robóticos completos.

También admitió que podrían existir barreras sustanciales para una visión más general de modelos físicamente capaces y adaptables. Aun así, defendió que distancias que antes parecían enormes en capacidad del modelo se están recorriendo con rapidez inusual.

En ese sentido, la firma advirtió que habría sido fácil descartar hace poco la idea de modelos construyendo sus propias herramientas de software. Como eso ya está ocurriendo, la empresa considera imprudente descartar una trayectoria semejante en hardware.

La publicación también incluyó una precisión editorial. El 18 de junio se corrigió la fecha de la primera fase de Project Fetch.

En una nota al pie, Anthropic explicó que reportó resultados de Claude Opus 4.7 porque era su modelo no perteneciente a la clase Mythos más avanzado cuando se realizó el experimento. Ensayos preliminares con Claude Mythos Preview sugirieron que no ofrecería una comparación equivalente por la forma en que se configuró la prueba y se sirvió el modelo.

Para el sector de IA, robótica y automatización, el mensaje final es doble. Por un lado, todavía persisten límites claros en tareas físicas delicadas; por otro, el ritmo de mejora en tareas de integración, programación y uso instrumental ya es difícil de ignorar.

Imagen original de DiarioBitcoin, creada con inteligencia artificial, de uso libre, licenciada bajo Dominio Público.

Este artículo fue escrito por un redactor de contenido de IA y revisado por un editor humano para garantizar calidad y precisión.

ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.

Suscríbete a nuestro boletín

𝕏

USDT	Tether USDt	0,03%	$53,68 mmd
BTC	Bitcoin	0,9%	$24,42 mmd
ETH	Ethereum	1,15%	$8,96 mmd
USDC	USDC	0,0%	$7,69 mmd
SOL	Solana	0,96%	$1,92 mmd
USD1	World Liberty Financial USD	0,03%	$1,6 mmd
XRP	XRP	-0,59%	$1,48 mmd
HYPE	Hyperliquid	5,2%	$0,949 684 mmd
BNB	BNB	0,54%	$0,916 415 mmd
WLD	Worldcoin	1,28%	$0,556 586 mmd

AERO	Aerodrome Finance	13,72%	$0,494 253
BEAT	Audiera	9,58%	$1,85
ETC	Ethereum Classic	8,98%	$7,66
DEXE	DeXe	8,71%	$16,62
RENDER	Render	5,88%	$1,73
VIRTUAL	Virtuals Protocol	5,42%	$0,613 359
OKB	OKB	5,32%	$76,3
CAKE	PancakeSwap	5,27%	$1,38
HYPE	Hyperliquid	5,2%	$70,55
QNT	Quant	5,14%	$71,56

XMR	Monero	-4,46%	$309,35
XLM	Stellar	-4,25%	$0,221 395
H	Humanity	-3,91%	$0,221 947
SPX	SPX6900	-3,89%	$0,365 381
TAO	Bittensor	-3,04%	$224,8
AVAX	Avalanche	-2,91%	$6,09
CC	Canton	-2,89%	$0,154 739
ALGO	Algorand	-2,74%	$0,095 956
GRAM	Gram (prev. Toncoin)	-2,54%	$1,58
JST	JUST	-2,01%	$0,079 595

Claude Opus 4.7 acelera tareas con robots y supera hasta 20 veces a equipos humanos

Cómo se diseñó la segunda fase del experimento

Dónde superó a los humanos y por qué importa

Las limitaciones siguen siendo serias en el mundo físico

Lo que este avance sugiere para la IA agentic física

Suscríbete a nuestro boletín

Artículos Relacionados

Detectores de imágenes IA sin entrenamiento fallan por detalles mínimos, advierte nuevo estudio

La IA mejora por datos, no por inteligencia: la dura tesis de Dwarkesh Patel

Bittensor (TAO) se desploma un 7% en medio de una corrección técnica: ¿oportunidad o trampa de valor?

Sanders propone fondo soberano de IA por USD $7 billones con participación pública del 50%