Por Canuto  

Physical Intelligence, una startup de robótica con sede en San Francisco, asegura que su nuevo modelo π0.7 puede guiar robots para resolver tareas que nunca fueron enseñadas de forma explícita. El avance, todavía en fase de investigación, alimenta la idea de un cerebro robótico de propósito general y refuerza el interés de inversionistas en una empresa valorada recientemente en USD $5.600 millones.
***

  • Physical Intelligence presentó π0.7, un modelo que según sus investigadores muestra señales tempranas de generalización composicional en robots.
  • La empresa asegura que el sistema logró usar una freidora de aire casi desconocida en su entrenamiento, especialmente cuando recibió guía verbal paso a paso.
  • La startup ha recaudado más de USD $1.000 millones y estaría negociando una nueva ronda que la acercaría a una valoración de USD $11.000 millones.

 


Physical Intelligence, startup de robótica con sede en San Francisco y apenas dos años de trayectoria, presentó una nueva investigación con la que busca demostrar que su más reciente modelo de inteligencia artificial puede dirigir robots para ejecutar tareas para las que no fue entrenado de forma explícita. La firma sostiene que ese comportamiento tomó por sorpresa incluso a sus propios investigadores.

El modelo, llamado π0.7, es descrito por la compañía como un paso temprano, pero importante, hacia un cerebro robótico de propósito general. La idea detrás de esa meta es construir sistemas capaces de recibir una tarea desconocida, comprender instrucciones expresadas en lenguaje natural y llevarla a cabo sin requerir reentrenamiento específico para cada caso.

Según explicó TechCrunch, la propuesta apunta a romper con el enfoque dominante en robótica, donde los sistemas suelen entrenarse como especialistas para tareas muy concretas. En ese esquema, los equipos recopilan datos para una sola labor, ajustan un modelo para esa función y repiten el proceso cada vez que aparece una nueva necesidad.

Physical Intelligence afirma que π0.7 empieza a mostrar una alternativa a ese patrón. Su tesis central gira en torno a la llamada generalización composicional, es decir, la capacidad de combinar habilidades aprendidas en distintos contextos para resolver problemas no vistos durante el entrenamiento.

Qué hace diferente a π0.7

Sergey Levine, cofundador de Physical Intelligence y profesor de UC Berkeley enfocado en IA para robótica, sostuvo que una vez se cruza cierto umbral, el sistema deja de limitarse a repetir exactamente aquello para lo que se recolectaron datos. En su lugar, comienza a remezclar conocimientos de formas nuevas.

Levine afirmó que, en ese punto, las capacidades empiezan a crecer más que linealmente con respecto a la cantidad de datos disponibles. A su juicio, esa propiedad de escalado más favorable recuerda lo observado antes en modelos de lenguaje y visión por computadora.

La comparación no es menor. En la industria de IA, buena parte del entusiasmo reciente se basa en la idea de que modelos suficientemente grandes pueden desarrollar habilidades emergentes que no resultaban evidentes al mirar únicamente el conjunto de entrenamiento. Physical Intelligence sugiere que algo parecido podría estar comenzando a verse en robótica.

Sin embargo, los propios autores del trabajo piden cautela. A lo largo de su investigación, la empresa habla de “señales tempranas” de generalización y de “demostraciones iniciales” de nuevas capacidades. Es decir, no presenta a π0.7 como un producto listo para desplegarse de forma masiva, sino como un resultado preliminar de investigación.

La prueba con una freidora de aire

La demostración más llamativa descrita por la empresa involucró una freidora de aire que el modelo prácticamente no había visto durante su entrenamiento. Al revisar los datos, el equipo encontró solo dos episodios relacionados: en uno, un robot diferente cerraba la freidora empujándola; en otro, dentro de un conjunto de datos de código abierto, otro robot colocaba una botella de plástico en el aparato siguiendo instrucciones humanas.

Pese a esa exposición tan limitada, el sistema pareció construir una comprensión funcional del electrodoméstico. Según la empresa, el modelo combinó esos fragmentos con datos de preentrenamiento más amplios basados en la web y logró un intento aceptable para usar la freidora de aire con el fin de cocinar una batata.

Ashwin Balakrishna, científico investigador en Physical Intelligence y estudiante de doctorado en informática en Stanford, reconoció que resulta difícil rastrear con precisión de dónde proviene ese conocimiento o anticipar en qué casos concretos el sistema tendrá éxito o fallará. Esa incertidumbre, de hecho, es parte de lo que hizo llamativo el resultado para los propios investigadores.

Cuando el robot recibió instrucciones verbales paso a paso, similares a las que una persona podría darle a un empleado nuevo, logró completar con éxito la tarea. Para la empresa, ese punto es importante porque sugiere que robots desplegados en ambientes nuevos podrían mejorar su desempeño en tiempo real con orientación humana, sin necesidad de recopilar más datos ni reentrenar el modelo.

Los límites siguen siendo claros

Physical Intelligence también fue explícita sobre las limitaciones actuales de π0.7. El modelo no puede ejecutar por sí mismo tareas complejas de varios pasos a partir de una sola orden general. Levine lo resumió con un ejemplo directo: todavía no se le puede decir al robot “ve y prepárame unas tostadas” y esperar que resuelva todo de principio a fin.

En cambio, señaló que el sistema funciona mucho mejor cuando recibe guía detallada. Si un humano lo instruye paso a paso, por ejemplo indicándole cómo abrir una tostadora, qué botón presionar y qué acción realizar después, el modelo tiende a responder bastante bien.

Balakrishna añadió otro matiz relevante. En al menos un experimento, el problema no estuvo en el robot ni en el modelo, sino en la forma en que los investigadores formularon las indicaciones. Explicó que una prueba inicial con la freidora de aire arrojó una tasa de éxito de apenas 5%.

Tras invertir cerca de media hora en refinar la manera de explicar la tarea al sistema, esa tasa de éxito subió hasta 95%, según el investigador. El comentario revela hasta qué punto el llamado prompt engineering ya no es solo un asunto de chatbots, sino también una variable crítica en la robótica guiada por IA.

Un campo con pocas métricas comunes

Otro problema reconocido por la compañía es la falta de benchmarks estandarizados en robótica. Sin marcos de evaluación ampliamente aceptados, validar externamente este tipo de afirmaciones resulta difícil. Eso obliga a mirar los resultados con interés, pero también con prudencia.

Ante esa limitación, Physical Intelligence comparó π0.7 con modelos especialistas desarrollados previamente por la propia empresa. Esos sistemas estaban diseñados para un único propósito y entrenados en tareas individuales. Según la startup, el nuevo modelo generalista igualó su desempeño en varios trabajos complejos.

Entre esas tareas se incluyen preparar café, doblar ropa y ensamblar cajas. Más allá de que ninguna de esas demostraciones parezca espectacular en términos visuales, la empresa sostiene que precisamente ahí está el punto: la utilidad práctica de un robot generalista no depende de ejecutar trucos llamativos, sino de adaptarse a labores cotidianas variadas.

Levine anticipó una de las críticas más comunes a este tipo de presentaciones. A su juicio, siempre puede decirse que las tareas de generalización robótica son “aburridas” porque el robot no está haciendo una acrobacia. No obstante, rechazó ese enfoque y argumentó que la diferencia entre un truco coreografiado y un sistema que realmente generaliza es exactamente lo que importa.

Sorpresa dentro del propio laboratorio

Uno de los elementos más llamativos del reporte es que los investigadores aseguraron haberse sorprendido con algunos resultados. Balakrishna comentó que, por lo general, cuando conoce a fondo los datos de entrenamiento, suele poder anticipar más o menos qué podrá hacer un modelo.

Según su testimonio, los últimos meses fueron la primera vez en que se sintió genuinamente sorprendido. Relató que compró al azar un juego de engranajes y le pidió al robot que girara uno de ellos. De acuerdo con su versión, el sistema simplemente lo hizo.

Levine comparó esa experiencia con un momento que vivió al ver a GPT-2 generar una historia sobre unicornios en los Andes. Recordó haber pensado entonces: “¿Dónde demonios aprendió sobre unicornios en Perú?”. Para él, observar una mezcla inesperada de capacidades en robótica produce una sensación similar y especialmente significativa.

La comparación también deja abierta una objeción importante. Los modelos de lenguaje tuvieron acceso al vasto contenido de internet, mientras que los robots no cuentan con una base de experiencias físicas remotamente comparable. Ninguna cantidad de buenas instrucciones elimina por completo esa diferencia estructural.

Dinero, expectativas y prudencia comercial

Aunque la startup evita hacer promesas agresivas sobre plazos de comercialización, el mercado ya le asigna un alto valor. Physical Intelligence ha recaudado más de USD $1.000 millones hasta la fecha y fue valorada recientemente en USD $5.600 millones.

Parte importante del entusiasmo inversor alrededor de la empresa se vincula con Lachy Groom, uno de sus cofundadores. Antes de lanzar la startup, Groom se había consolidado como uno de los inversionistas ángeles más respetados de Silicon Valley, con apuestas tempranas en empresas como Figma, Notion y Ramp.

Ese historial ayudó a la firma a atraer capital institucional de peso incluso sin ofrecer a los inversionistas una hoja de ruta clara hacia la comercialización. Ahora, según el reporte, la compañía estaría en conversaciones para una nueva ronda que casi duplicaría su valoración hasta cerca de USD $11.000 millones.

Pese al optimismo, Levine evitó especular sobre cuándo un sistema basado en estos avances podría estar listo para un despliegue real. Dijo que existen buenas razones para ser optimistas y que el progreso va más rápido de lo que esperaba hace un par de años, pero admitió que le resulta muy difícil responder esa pregunta.

En otras palabras, el avance de π0.7 no prueba que la robótica generalista ya haya llegado. Lo que sí sugiere es que la frontera tecnológica podría estar moviéndose con más rapidez de lo previsto y que la capacidad de combinar habilidades, responder a instrucciones naturales y adaptarse a tareas no vistas empieza a perfilarse como el próximo gran campo de batalla en la IA física.


Imagen original de DiarioBitcoin, creada con inteligencia artificial, de uso libre, licenciada bajo Dominio Público.

Este artículo fue escrito por un redactor de contenido de IA y revisado por un editor humano para garantizar calidad y precisión.


ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.

Suscríbete a nuestro boletín