Por Canuto  

Google incorporó de forma nativa la función de uso de computadoras en Gemini 3.5 Flash, un paso con el que busca facilitar la creación de agentes de IA capaces de interactuar en navegador, móvil y escritorio, con nuevas defensas frente a riesgos como la inyección indirecta de prompts.
***

  • Gemini 3.5 Flash ahora incluye de forma nativa la herramienta de uso de computadoras.
  • La función apunta a agentes que puedan ver, razonar y actuar en navegador, móvil y escritorio.
  • Google añadió salvaguardas opcionales para empresas ante acciones sensibles e inyección de prompts.


Google anunció que la capacidad de uso de computadoras ya está integrada como herramienta nativa en Gemini 3.5 Flash. Con este movimiento, la empresa busca simplificar el desarrollo de agentes de IA capaces de operar sobre distintas plataformas digitales.

La novedad marca un cambio frente al esquema anterior, en el que esta función solo estaba disponible mediante un modelo independiente llamado Gemini 2.5 computer use model. Ahora, esa capacidad pasa a formar parte del modelo principal de la familia Flash.

En términos prácticos, la integración está pensada para que desarrolladores y empresas construyan agentes personalizados que puedan ver interfaces, razonar sobre ellas y ejecutar acciones. Ese alcance cubre entornos de navegador, aplicaciones móviles y escritorios de computadora.

La compañía enmarcó el anuncio dentro de la evolución de Gemini como plataforma para tareas agentivas. Según explicó Google, el modelo ya destacaba en function calling y en el uso de herramientas integradas como Search y Maps grounding.

Con esta expansión, Gemini 3.5 Flash pasa a concentrar varias piezas que antes estaban más fragmentadas. El objetivo es ofrecer un punto de entrada más directo para automatizaciones de largo alcance y flujos empresariales complejos.

Qué cambia con la integración de uso de computadoras

La principal novedad es que el uso de computadoras deja de ser un componente separado y se convierte en una capacidad incorporada dentro de Gemini 3.5 Flash. Eso reduce fricción para quienes ya trabajan con el modelo y desean sumar automatización operativa.

De acuerdo con la información oficial, esta versión ofrece el mejor desempeño de Google hasta ahora para tareas agentivas de uso de computadoras. La empresa no publicó métricas numéricas en el anuncio, pero sí subrayó una mejora de rendimiento frente a implementaciones previas.

El concepto de “computer use” se refiere a una IA capaz de interactuar con interfaces como lo haría una persona. Eso incluye observar pantallas, interpretar elementos visuales y tomar acciones dentro de aplicaciones o sitios web.

Para lectores menos familiarizados con el término, este tipo de tecnología busca ir más allá del chatbot tradicional. En vez de limitarse a responder texto, el agente puede navegar pasos, completar procesos y ejecutar flujos en sistemas reales.

Google mostró ejemplos concretos del nuevo enfoque en Gemini 3.5 Flash. En uno de ellos, el sistema utiliza el uso de computadoras para analizar la app de Gemini y devolver una lista de funciones categorizadas.

En otro ejemplo, 3.5 Flash emplea esa misma capacidad para auditar su propia documentación en busca de problemas de accesibilidad. Ambos casos ilustran que la herramienta no solo sirve para operar interfaces, sino también para evaluar contenido y estructura de aplicaciones.

Enfoque empresarial y automatización de tareas de largo horizonte

Google dijo que la integración habilita un mejor rendimiento para tareas de largo horizonte. Ese tipo de trabajo suele requerir múltiples pasos encadenados, cambios de contexto y persistencia a través de varias aplicaciones.

La empresa mencionó dos casos de uso prioritarios para el ámbito corporativo. El primero es la prueba continua de software, donde un agente puede revisar interfaces, detectar fallos y repetir procesos de verificación.

El segundo es el trabajo de conocimiento dentro de aplicaciones profesionales. En ese terreno, la promesa apunta a automatizar tareas repetitivas en herramientas empresariales sin necesidad de crear integraciones manuales para cada sistema.

Este punto es relevante porque muchas compañías operan con plataformas heterogéneas. Un agente que pueda actuar sobre navegador, móvil y escritorio tendría potencial para conectar flujos que hoy dependen de equipos humanos o scripts frágiles.

Desde la perspectiva competitiva, el anuncio también refleja la carrera actual por desarrollar agentes más autónomos. En el mercado de IA, la capacidad de ejecutar acciones reales sobre software se ha vuelto una de las áreas más observadas por empresas e inversionistas.

Aunque el comunicado no menciona clientes por nombre en el fragmento disponible, Google afirmó que ya está viendo a usuarios empresariales generar valor con esta función. La compañía presentó esa recepción temprana como señal de utilidad comercial para el producto.

Seguridad, inyección de prompts y controles para acciones sensibles

Uno de los ejes más delicados del anuncio es la seguridad. Google reconoció que los agentes que operan en entornos reales enfrentan riesgos asociados a prompt injection, un problema que puede alterar la conducta esperada del sistema.

Para mitigar parte de ese riesgo, la empresa indicó que aplica entrenamiento adversarial dirigido al uso de computadoras en Gemini 3.5 Flash. La idea es endurecer el modelo ante instrucciones maliciosas o manipulaciones incrustadas en el entorno operativo.

Además, Google lanzó dos sistemas opcionales de salvaguarda orientados al segmento empresarial. El primero permite exigir confirmación explícita del usuario antes de realizar acciones sensibles o irreversibles.

El segundo sistema está diseñado para detener automáticamente una tarea si se identifica una inyección indirecta de prompts. Esa clase de ataque puede presentarse cuando un agente interpreta contenido externo que intenta modificar su comportamiento sin autorización directa del usuario.

La empresa recomendó aplicar una estrategia de “defense-in-depth”, o defensa en profundidad. Bajo ese enfoque, estas funciones deben combinarse con sandboxing seguro, verificación humana en el circuito y controles estrictos de acceso.

Ese énfasis muestra una realidad clave del mercado de agentes. Cuanto mayor es la autonomía de una IA sobre sistemas vivos, mayor es también la necesidad de límites operativos, permisos definidos y supervisión humana.

Disponibilidad para desarrolladores y lo que sugiere este movimiento

Google informó que desarrolladores y empresas ya pueden comenzar a usar la función a través de la Gemini API y de Gemini Enterprise Agent Platform. Con ello, la compañía abre acceso tanto a equipos técnicos como a organizaciones que buscan una capa más administrada.

Como punto de entrada inicial, también habilitó una demo alojada por Browserbase. Junto a eso, puso a disposición una implementación de referencia y documentación para quienes quieran empezar a construir agentes desde ahora.

Más allá del detalle técnico, el anuncio sugiere una consolidación del portafolio de Gemini alrededor de herramientas prácticas. En vez de presentar solo capacidades de conversación, Google está empujando una propuesta de agentes con utilidad operativa concreta.

Ese cambio puede tener efectos en varias industrias, desde software empresarial hasta servicios profesionales y soporte interno. También puede influir en el modo en que otras tecnológicas empaquetan capacidades similares dentro de modelos generalistas.

Para el ecosistema de IA, el paso es significativo porque acerca la automatización agentiva a un formato más accesible para producción. La pregunta de fondo ya no es solo qué tan bien responde un modelo, sino qué tan seguro y fiable resulta cuando actúa.

En ese sentido, el anuncio de Google combina dos mensajes que hoy dominan la conversación sobre inteligencia artificial. Por un lado, más autonomía y mayor alcance operativo; por el otro, controles adicionales para reducir riesgos en ambientes empresariales reales.

La información publicada por Google no incluyó detalles sobre precios, cuotas de uso ni benchmarks específicos en el texto suministrado. Tampoco precisó una lista de clientes en este extracto, aunque sí afirmó que algunas organizaciones ya están obteniendo valor con la capacidad.

Con los datos disponibles, la integración de uso de computadoras en Gemini 3.5 Flash aparece como una apuesta por centralizar herramientas, elevar la utilidad del modelo y responder a una demanda creciente por agentes que no solo entiendan instrucciones, sino que también ejecuten trabajo digital de forma controlada.


ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.

Suscríbete a nuestro boletín