Un equipo de la University of Bristol presentó una técnica de robótica que busca trasladar parte del esfuerzo de control desde el software hacia el propio cuerpo del robot. En simulaciones con un cuadrúpedo Unitree Go2, el sistema logró descargar hasta 87% de la potencia mecánica en articulaciones elásticas pasivas sobre terreno plano, con ahorros netos de hasta 86% frente a una línea base sin ese apoyo físico.
***
- El método, llamado Physical Imitation Learning, divide la política de control entre motores y articulaciones elásticas pasivas.
- En simulación, el sistema descargó hasta 87% de la potencia mecánica en terreno plano y 18% en terreno difícil.
- El enfoque evita una búsqueda conjunta compleja entre cuerpo y controlador, lo que podría facilitar el diseño eficiente de futuros robots.
🤖💡 Innovador método reduce el gasto energético de robots cuadrúpedos en un 86%
Investigadores de la University of Bristol desarrollaron una técnica llamada Physical Imitation Learning.
Este sistema optimiza la eficiencia mecánica utilizando articulaciones elásticas pasivas.… pic.twitter.com/vZuXCNWeBe
— Diario฿itcoin (@DiarioBitcoin) April 5, 2026
La eficiencia energética sigue siendo uno de los grandes cuellos de botella de la robótica móvil. Aunque los robots cuadrúpedos han mejorado de forma notable en estabilidad, velocidad y adaptación al entorno, todavía consumen bastante más energía que muchos animales terrestres de tamaño comparable.
Un nuevo trabajo de Huyue Ma, Yurui Jin, Helmut Hauser y Rui Wu propone una ruta distinta para cerrar esa brecha. En lugar de depender solo de un controlador centralizado que ordena cada movimiento, los investigadores plantean que parte del comportamiento aprendido por el sistema pueda trasladarse al propio cuerpo del robot mediante componentes pasivos.
Ese principio es el corazón de A Physical Imitation Learning Pipeline for Energy-Efficient Quadruped Locomotion Assisted by Parallel Elastic Joint. El estudio describe una tubería de aprendizaje y diseño físico para que un cuadrúpedo simulado reduzca su gasto energético usando articulaciones elásticas paralelas, conocidas como PEJ por sus siglas en inglés.
La idea general parte de una observación biológica. En los animales, la locomoción eficiente no depende solo del cerebro o de los músculos. También importa la dinámica pasiva del cuerpo, que puede almacenar y liberar energía de forma coordinada. Según los autores, los robots modernos suelen hacer lo contrario: su control centralizado tiende a suprimir esas dinámicas intrínsecas en vez de aprovecharlas.
Qué propone Physical Imitation Learning
El método recibe el nombre de Physical Imitation Learning, o PIL. Su lógica consiste en entrenar primero una política de control con aprendizaje por refuerzo y luego descomponer ese comportamiento en dos partes: una activa, que sigue siendo ejecutada por los motores, y otra pasiva, que puede ser absorbida por articulaciones elásticas diseñadas para responder según el ángulo de la articulación.
En términos simples, el robot no deja de usar software. Lo que cambia es que una parte del esfuerzo mecánico deja de recaer sobre los actuadores y pasa a ser ejecutada por la propia estructura física. Las PEJ actúan como un tipo de exoesqueleto pasivo para el robot, entregando torque de apoyo sin requerir energía activa en cada instante.
El estudio sostiene que esto permite que el cuerpo “imite” una fracción del comportamiento aprendido por la política de control original. Después, una política residual enviada a los motores compensa lo que falte para recuperar el desempeño de la política inicial. Esa combinación, según los autores, reduce el consumo total sin sacrificar robustez ni adaptabilidad.
Una ventaja importante del enfoque es computacional. A diferencia de otras estrategias de co-diseño entre cuerpo y controlador, PIL no amplía el espacio de búsqueda con demasiados parámetros morfológicos. En vez de optimizar cuerpo y control desde cero al mismo tiempo, primero aprende la política y luego destila de ella las respuestas físicas que conviene implementar de forma pasiva.
Cómo se probó el sistema
Los experimentos se realizaron en IsaacLab, un entorno de simulación de física rígida con ejecución masiva en GPU. El equipo simuló 4.096 instancias en paralelo del robot cuadrúpedo Unitree Go2, que tiene 12 grados de libertad actuados, tres por cada pata.
La simulación operó a una frecuencia de control de 20 Hz, con un paso temporal de 0,05 segundos. El robot recibía observaciones sobre posiciones y velocidades articulares, orientación y velocidad angular de la base, además de un escaneo de altura del terreno local. A partir de eso, la red de política producía posiciones articulares objetivo.
El terreno siguió el currículo por defecto de IsaacLab, con siete niveles de dificultad, del 0 al 6. Esos niveles mezclaban suelo plano, superficies rugosas aleatorias, obstáculos tipo cajas, escaleras piramidales y escaleras piramidales invertidas. El nivel 0 equivalía en la práctica a terreno plano, mientras el nivel 6 incluía rugosidades de hasta 7,3 centímetros, obstáculos de hasta 15 centímetros y escalones de hasta 17 centímetros.
Primero se entrenó una política inicial con Proximal Policy Optimization, o PPO, usando 10.000 iteraciones. Según el trabajo, la convergencia apareció alrededor de la iteración 6.000. Después se abrieron dos ramas de entrenamiento continuo: una línea base con penalización por costo de transporte, o CoT, y otra rama de co-diseño que combinó esa penalización con la destilación en línea de las articulaciones elásticas.
Por qué el costo de transporte fue clave
El costo de transporte es una métrica clásica para medir cuánta energía necesita un sistema para mover su peso una cierta distancia. En este estudio, los autores no se limitaron a castigar la potencia mecánica directa, porque eso empujaba a la política a moverse más lento en vez de ser más eficiente por unidad de desplazamiento.
Para evitar ese sesgo, el equipo usó una formulación de CoT que normaliza la potencia positiva por el peso del robot y su velocidad proyectada en la dirección del comando. También establecieron un piso mínimo de 0,1 metros por segundo para evitar divisiones problemáticas cuando la velocidad es muy baja.
La política de co-diseño pudo tolerar penalizaciones de CoT más altas que la línea base. En terreno nivel 0, el peso asignado al CoT fue de 2,0 para la rama con PEJ, frente a 0,4 en la línea base. En nivel 6, esos valores bajaron a 0,2 y 0,3, respectivamente. Esa diferencia refleja que la asistencia pasiva permitía empujar más la optimización energética antes de degradar el seguimiento de velocidad.
Los autores explican que un terreno plano favorece patrones periódicos y regulares, más fáciles de capturar con una única curva torque-ángulo. En cambio, un terreno más complejo exige respuestas reactivas menos periódicas. Eso deja menos margen para transferir la carga a componentes pasivos.
Los resultados principales
Las cifras más llamativas aparecieron en terreno plano. Allí, las articulaciones elásticas absorbieron 21,0 W de un total de 24,0 W en la política de co-diseño, dejando solo 3,0 W de potencia activa para los motores. La línea base, en comparación, registró 21,6 W.
Medido como proporción de descarga, el sistema alcanzó un offload ratio de 87% en nivel 0. En otras palabras, casi nueve décimas partes del esfuerzo de actuación de esa política pudieron ser absorbidas por las PEJ. El ahorro neto de potencia frente a la línea base fue de 86%.
Al subir la dificultad del terreno, los beneficios bajaron de forma monotónica. En el nivel 6, el offload ratio cayó a 18% y el ahorro neto de potencia a 8%. Aun así, los autores consideran relevante que la asistencia pasiva siguiera aportando incluso bajo condiciones más exigentes.
El estudio también mostró que la potencia total de la política de co-diseño, si se evaluaba sin las PEJ, superaba a la línea base en todos los niveles. Eso sugiere que la marcha aprendida se adaptó explícitamente a depender de la ayuda elástica. Sin esa asistencia física, el mismo patrón consumiría más energía.
En cuanto a la calidad de locomoción, el error RMS de seguimiento de velocidad se mantuvo cerca de 0,2 metros por segundo, similar al de la política preentrenada. Ese punto era importante para la metodología del trabajo, porque el objetivo no era ahorrar energía a cualquier costo, sino hacerlo sin romper la capacidad de desplazamiento.
Generalización entre distintos terrenos
Los investigadores también probaron qué pasaba cuando una política entrenada en un tipo de terreno se desplegaba en otros niveles. Todas las políticas lograron su mayor ratio de descarga en terreno plano y luego empeoraron a medida que aumentaba la dificultad.
La política entrenada solo en nivel 0 no pudo sostener locomoción en niveles superiores. La entrenada en nivel 2 generalizó hasta nivel 3, pero falló en nivel 4 y más allá. La de nivel 3 alcanzó a generalizar hasta nivel 4, mientras que las políticas entrenadas en niveles 4 y 6 sí lograron moverse en todos los niveles evaluados.
Sin embargo, esa mayor robustez vino con un costo. A igualdad de terreno de evaluación, una política entrenada en un nivel más fácil tendía a descargar más potencia que una entrenada en un nivel más difícil. En terreno nivel 0, por ejemplo, la política de nivel 2 logró 70% de descarga, frente a 29% para la política entrenada en nivel 6.
El trabajo interpreta ese intercambio como una tensión natural entre eficiencia y robustez. Una penalización energética más agresiva favorece que más comportamiento sea absorbido por el cuerpo. Pero también reduce el margen activo necesario para responder a perturbaciones complejas.
Qué significa este avance
Para lectores menos familiarizados con robótica, el aporte de este trabajo no radica solo en usar resortes o elasticidad. Lo novedoso es el procedimiento sistemático para extraer, desde una política aprendida con RL, qué parte de ese comportamiento conviene convertir en respuesta física pasiva del robot.
Eso conecta con una línea de investigación más amplia conocida como inteligencia física incorporada o embodied physical intelligence. La premisa es que la inteligencia útil para una tarea no tiene que residir exclusivamente en algoritmos y chips. También puede estar codificada en la forma, la elasticidad y la dinámica del cuerpo.
Según el paper, las curvas de las PEJ son fabricables con estrategias mecánicas basadas en levas, incluido el principio Elastic Rolling Cam presentado por Rui Wu, L. Girardi y S. Mintchev en 2025. Por eso, aunque los resultados actuales son solo de simulación, los autores plantean que existe una vía plausible para validar el sistema en hardware real sobre un Unitree Go2 físico.
Huyue Ma, Yurui Jin, Helmut Hauser y Rui Wu concluyen que PIL podría aplicarse no solo a cuadrúpedos, sino también a humanoides y brazos robóticos. Si esa promesa se confirma fuera del simulador, el diseño de robots podría empezar a parecerse más a la evolución animal: menos dependencia de corregirlo todo por software y mayor uso de un cuerpo que ya sabe ayudar.
Imagen original de DiarioBitcoin, creada con inteligencia artificial, de uso libre, licenciada bajo Dominio Público.
Este artículo fue escrito por un redactor de contenido de IA y revisado por un editor humano para garantizar calidad y precisión.
ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.
Suscríbete a nuestro boletín
Artículos Relacionados
Empresas
Y Combinator rompe con Delve tras acusaciones sobre certificaciones de cumplimiento
Capital de Riesgo
Peter Thiel apuesta por Halter y sus collares solares para transformar la ganadería
Empresas
Microsoft enfría el discurso sobre Copilot y advierte: no debe usarse para consejos importantes
Bitcoin