Por Canuto  

Google presentó en I/O 2026 dos avances que apuntan a la siguiente fase de la inteligencia artificial: Gemini 3.5 Flash, un modelo pensado para agentes autónomos capaces de trabajar durante horas, y la integración de Street View con Genie, su modelo de mundo para simular calles reales. Juntas, ambas novedades muestran una estrategia clara: pasar de los chatbots a sistemas que planifican, ejecutan y experimentan en entornos interactivos.
***

  • Google DeepMind conectó Street View con Genie para simular calles reales, cambiar clima, estaciones y perspectivas humanas o robóticas.
  • Gemini 3.5 Flash fue presentado como el nuevo modelo agéntico de Google, optimizado para programación, uso de herramientas y tareas de larga duración.
  • La empresa busca llevar estas capacidades a consumo, búsqueda, robótica y conducción autónoma, aunque reconoce que aún hay límites en precisión, física y seguridad.

 


Google aprovechó su conferencia I/O 2026 para presentar dos anuncios que, en conjunto, dejan ver hacia dónde quiere mover su estrategia de inteligencia artificial. Por un lado, DeepMind integró Street View con Project Genie, el modelo de mundo de propósito general de la compañía, para simular calles reales de forma interactiva. Por otro, la empresa lanzó Gemini 3.5 Flash, un modelo que describe como su apuesta más potente hasta ahora para programación y agentes de IA autónomos.

Ambas novedades comparten un mismo hilo conductor. Google ya no quiere que la IA sea vista solo como una interfaz conversacional que responde preguntas. Su objetivo es convertirla en una capa operativa capaz de planificar, ejecutar, simular y adaptarse, ya sea dentro de un entorno digital de desarrollo o sobre una representación virtual del mundo físico.

Ese giro es relevante para cualquiera que siga el avance de la IA más allá del ciclo de consumo masivo de los chatbots. La industria viene empujando la idea de agentes capaces de usar herramientas, dividir tareas, coordinar subprocesos y sostener trabajos de varias horas. Google ahora intenta combinar esa visión con otra pieza estratégica: el enorme archivo visual y geográfico que ha reunido durante dos décadas con Street View.

Según reportó TechCrunch, la nueva función de Street View dentro de Genie se lanzó durante Google I/O y comenzó a habilitarse para algunos usuarios Ultra en Estados Unidos desde el mismo día del anuncio. La expansión al resto de usuarios Ultra a nivel global, dijo la empresa, ocurrirá durante las próximas semanas.

Street View y Genie: de recorrer calles a simularlas

El planteamiento detrás de Genie va mucho más allá de navegar una calle con imágenes panorámicas. La integración con Street View permite tomar ubicaciones reales y convertirlas en espacios simulados, inmersivos e interactivos. En esa capa, el usuario puede no solo recorrer una cuadra, sino alterar condiciones del entorno, como el clima o la estación, para observar cómo cambiaría ese mismo lugar bajo nieve, lluvia o incluso en escenarios extremos inspirados en ficción climática.

Jack Parker-Holder, científico investigador del equipo de open-endedness de DeepMind, explicó a TechCrunch que una de las tesis centrales de Genie es su utilidad tanto para agentes y robótica como para exploración humana. Puso como ejemplo un robot nuevo desplegado en Londres, una ciudad donde los días soleados no son frecuentes. Con Genie, dijo, sería posible simular esos momentos raros en los que el sol rebota sobre viviendas victorianas, para que el robot no sea sorprendido cuando ocurra en el mundo real.

El mismo enfoque se puede trasladar a escenarios más cotidianos. Parker-Holder también propuso la idea de una persona que planea visitar Nueva York en otra época del año y quiere ver cómo luce una cuadra cubierta de nieve. La clave está en que el sistema no solo muestra imágenes históricas, sino que genera una simulación navegable del lugar.

Google llega a este punto con una ventaja difícil de replicar. La compañía ha recolectado datos de Street View durante 20 años, mediante autos con cámaras y personas con mochilas de captura. Según detalló, ya acumula más de 280.000 millones de imágenes repartidas en 110 países y los siete continentes. Esa escala convierte a Street View en una de las bases visuales más amplias del planeta para entrenar o anclar modelos del mundo.

De acuerdo con Parker-Holder, esa riqueza de información del mundo real se vuelve especialmente valiosa al combinarse con una capacidad generativa para simular entornos. El potencial no se limita a exploración urbana. También apunta a educación, videojuegos y entrenamiento de robots, tres áreas donde los modelos de mundo vienen ganando relevancia porque permiten probar situaciones sin costo físico ni riesgo material.

Waymo, robótica y los límites actuales de la simulación

Google ya había lanzado Genie 3 en vista previa para investigación en agosto pasado. Luego abrió el acceso a suscriptores de Google AI Ultra en Estados Unidos en enero, permitiéndoles crear mundos de juego interactivos a partir de texto o imágenes. La integración con Street View ahora suma una capa de realismo geográfico que puede ser útil para empresas del propio ecosistema Google.

Uno de los casos mencionados es Waymo. Genie 3 ya ayuda a impulsar uno de sus simuladores para entrenar autos autónomos ante eventos extremadamente raros, como tornados o encuentros casuales con elefantes. Agregar datos de Street View podría ayudar a preparar esos sistemas para nuevas ciudades alrededor del mundo, ampliando la cobertura más allá del enfoque habitual centrado en el vehículo.

Waymo cuenta con su propio simulador y lo ha usado para escalar a 11 ciudades de Estados Unidos y probar su conductor de IA en varias más. Sin embargo, Parker-Holder destacó una diferencia importante. Esos simuladores suelen estar construidos desde la perspectiva del automóvil. Street View, en cambio, permite anclar el entorno a un lugar real y además cambiar el punto de vista a otros agentes, como humanos o robots.

Aun así, Google reconoció que el sistema sigue siendo experimental. Diego Rivas, gerente de producto en DeepMind, advirtió que Street View en Genie y Genie en general todavía requieren mejoras en precisión. Las demostraciones mostradas a la prensa fueron descritas como impresionantes y reconocibles, pero con una calidad más cercana a un videojuego que a una reconstrucción fotorrealista.

La empresa también admitió una limitación clave: estos modelos todavía no entienden bien la física ni la relación de causa y efecto. En una simulación de una mujer corriendo en un paisaje nevado de Joshua Tree, la figura atravesaba cactus y arbustos sin reaccionar a ellos. Google contrastó ese rezago con otros sistemas visuales de su portafolio, como Nano Banana para imágenes y Veo para video, que ya captan mejor comportamientos físicos como corrientes de agua, dispersión de humo o caída de telas.

Parker-Holder estimó que este tipo de modelos podría estar entre seis y 12 meses por detrás del video en términos de precisión y calidad. Jonathan Herbert, director de Google Maps, añadió que Genie todavía no puede crear una reconstrucción fiel de una calle. A su juicio, el mayor avance actual está en la continuidad espacial: si el usuario gira 360 grados, la IA recuerda correctamente qué había detrás y puede construir a partir de esa coherencia.

Gemini 3.5 Flash: Google prioriza agentes sobre chatbots

El segundo gran anuncio fue Gemini 3.5 Flash. Google lo presentó como su modelo más potente hasta la fecha para programación y agentes autónomos. La empresa asegura que puede ejecutar pipelines de programación de forma independiente, gestionar proyectos de investigación y, en pruebas internas, construir un sistema operativo completo desde cero.

Koray Kavukcuoglu, director de tecnología de DeepMind, dijo antes del lanzamiento público que 3.5 Flash ofrece una combinación de calidad y baja latencia que supera a Gemini 3.1 Pro en casi todos los benchmarks, incluyendo programación, tareas agénticas y razonamiento multimodal. Añadió que es cuatro veces más rápido que otros modelos de frontera y que Google desarrolló además una versión optimizada de Flash 12 veces más rápida con la misma calidad.

La velocidad no es un detalle menor. En sistemas agénticos, múltiples agentes pueden ejecutarse al mismo tiempo sobre tareas prolongadas. Si cada subagente debe usar herramientas, revisar resultados, reintentar pasos y coordinarse con otros, la latencia se vuelve un cuello de botella. Por eso Google está vendiendo Flash como un modelo diseñado específicamente para sostener este tipo de trabajo.

Durante la presentación en I/O, el ingeniero Varun Mohan mostró agentes que se desplegaban en componentes separados y luego convergían para construir un sistema operativo completo dentro de Antigravity, la plataforma e IDE de desarrollo agéntico de la empresa. Google también lanzó Antigravity 2.0, una aplicación de escritorio independiente pensada alrededor del desarrollo centrado en agentes.

Según la compañía, 3.5 Flash fue codesarrollado con Antigravity para ofrecer un entorno nativo donde esos agentes puedan vivir, trabajar y ejecutar tareas. Google sostiene que ya está viendo impacto entre socios, incluidos bancos y fintechs que automatizan flujos de trabajo de varias semanas, así como equipos de ciencia de datos que buscan hallazgos en entornos complejos.

Tulsee Doshi, directora sénior de Google y responsable de producto, explicó que el modelo puede operar de forma autónoma durante varias horas. Aun así, no actúa sin freno en todos los casos. En ciertos momentos hará una pausa para pedir información al usuario, por ejemplo cuando llegue a una decisión sensible o a un problema de permisos que requiera juicio humano.

Una estrategia más amplia, con riesgos y nuevas salvaguardas

Google dijo que cuando llegue Gemini 3.5 Pro, ambos modelos podrán trabajar en tándem. La idea es que 3.5 Pro funcione como orquestador o planificador principal, mientras Flash actúe como la capa de subagentes encargada de ejecutar tareas con uso intensivo de herramientas. Esa arquitectura refleja una visión más modular de la IA, donde no todo depende de un solo modelo gigante.

El despliegue además será amplio. Gemini 3.5 Flash pasó a ser el modelo predeterminado en la aplicación de Gemini y en AI Mode dentro de Search a nivel global. La empresa también anunció capacidades agénticas para Search, con las que los usuarios podrán crear, personalizar y gestionar agentes directamente en la plataforma. El modelo impulsará además Gemini Spark, el nuevo agente personal de IA de Google diseñado para funcionar 24/7 y asistir a consumidores en la gestión de su vida digital.

Ese salto hacia agentes de consumo masivo viene acompañado de más escrutinio. El reporte recuerda que Google enfrenta una demanda después de que un hombre casi cometiera un evento con múltiples víctimas y muriera por suicidio tras semanas de conversar con Gemini el año pasado. Cuando una IA pasa de responder mensajes a ejecutar acciones o sostener presencia continua, el debate sobre daño potencial se vuelve más agudo.

Google sostiene que Gemini 3.5 reforzó sus salvaguardas en materia cibernética y CBRN, es decir, riesgos químicos, biológicos, radiológicos y nucleares. También dijo que el modelo está mejor calibrado para abordar preguntas sensibles en lugar de limitarse a rechazarlas de plano. Gemini 3.5 Flash quedó disponible de forma general desde el día del anuncio mediante Antigravity, la API de Gemini, Gemini Enterprise, la app de Gemini y el modo IA en Search.

Visto en conjunto, los dos anuncios muestran una tesis concreta. Google quiere unir mapas, simulación, desarrollo de software, robótica y búsqueda en una misma infraestructura agéntica. Street View le aporta memoria visual del mundo. Genie ofrece entornos interactivos. Flash promete ejecución rápida y autónoma. El reto, ahora, será cerrar la brecha entre demostraciones llamativas y sistemas realmente confiables, tanto en precisión física como en seguridad operativa.


Imagen original de DiarioBitcoin, creada con inteligencia artificial, de uso libre, licenciada bajo Dominio Público.

Este artículo fue escrito por un redactor de contenido de IA y revisado por un editor humano para garantizar calidad y precisión.


ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.

Suscríbete a nuestro boletín