Por Canuto  

Browserbase presentó Autobrowse como una forma de resolver uno de los mayores problemas de los agentes de navegador: su incapacidad para recordar lo aprendido entre ejecuciones. La propuesta busca convertir tareas web reales en skills reutilizables, reducir costos operativos y hacer que esos agentes sean más confiables para flujos empresariales.
***

  • Autobrowse permite que un agente repita una tarea real hasta converger y luego la convierta en una skill reutilizable.
  • Browserbase asegura que el principal cuello de botella de los browser agents ya no es el razonamiento, sino la memoria legible y auditable.
  • En pruebas internas, una skill graduada redujo una tarea de Craigslist de USD $0,22 y 71 segundos a USD $0,12 y 27 segundos.


Los agentes de navegador prometen automatizar tareas complejas en la web, desde reservas y formularios hasta extracción de datos y navegación en portales difíciles. Sin embargo, su despliegue en producción enfrenta un problema persistente: cada nueva ejecución suele arrancar casi desde cero, como si el sistema olvidara de inmediato lo que ya descubrió en sesiones anteriores.

Ese es el punto central del planteamiento de @kylejeong, quien presentó Autobrowse como una respuesta a esa limitación. La idea consiste en hacer que un agente ejecute una tarea real en un sitio real, estudie su propio rastro de ejecución, ajuste su estrategia y repita el proceso hasta alcanzar un flujo de trabajo confiable, no solo afortunado.

Una vez alcanzada esa convergencia, el sistema “gradúa” el enfoque ganador y lo transforma en una skill reutilizable. Ese artefacto toma la forma de un archivo markdown, acompañado por componentes deterministas como llamadas CLI, solicitudes fetch, selectores y scripts auxiliares que permiten repetir el trabajo sin redescubrir todo el sitio.

El argumento de fondo es que el problema central de los browser agents no sería ya la capacidad de razonar. Según esa tesis, el verdadero cuello de botella es la memoria en un formato legible para humanos y agentes, lo bastante confiable como para reutilizarse dentro de un flujo empresarial serio.

Cómo funciona Autobrowse

El esquema descrito por Jeong parte de una tarea concreta. Un ejemplo que menciona es reservar una cena a las 7:00 p. m. en OpenTable. El agente intenta completar la tarea de punta a punta sobre un navegador en vivo y luego revisa su propio trace para identificar dónde se atascó, dónde adivinó y en qué momentos gastó tokens de forma innecesaria.

Ese aprendizaje intermedio se va almacenando en un archivo llamado strategy.md. Allí, el agente deja notas sobre lo que funcionó, lo que falló, lo que debería probar después y los pasos que conviene abandonar. En la iteración siguiente, ese archivo se carga como contexto, de modo que la mejora no se reinicia desde cero.

El ciclo continúa con refinamientos sucesivos. El sistema elimina pasos redundantes y, cuando puede, se apoya en herramientas deterministas como browse fetch, browse search o scripts personalizados en Python. El objetivo no es encontrar un óptimo teórico, sino una ruta lo bastante barata y confiable como para volver a usarse.

Cuando las iteraciones consecutivas dejan de mostrar mejoras significativas en costo o cantidad de turnos, el flujo se interrumpe. Entonces se genera un archivo SKILL.md y se agregan los archivos auxiliares pertinentes en un repositorio público de skills. En la práctica, Jeong indicó que el proceso suele limitarse a unas 3 a 5 iteraciones.

La importancia del artefacto reutilizable

La salida final no es un transcript largo, ni una colección de embeddings, ni una secuencia de capturas de pantalla. Según la explicación compartida, lo que queda es un archivo pequeño y legible en markdown. Si el agente descubrió un endpoint JSON no documentado, ese hallazgo queda escrito allí. Si detectó que un formulario requiere una breve espera antes del envío, también queda registrado.

Ese punto resulta clave para Browserbase porque la misma estructura ya se usa internamente en su agente generalista bb. En ese sistema, distintos workflows internos, como solicitudes de funciones, investigaciones de sesión, pull requests o clasificación de ventas, pasan por un agente único que carga pequeñas skills en markdown bajo demanda.

Autobrowse lleva esa lógica un paso más allá, ya que el agente no solo usa skills, sino que también las escribe a partir de la experiencia real. Jeong subraya que las skills redactadas a mano y las skills graduadas por Autobrowse son el mismo tipo de artefacto. Por eso, una vez creada la skill, deja de importar si fue escrita por una persona o por otro agente.

Desde la perspectiva del flujo empresarial, esto permitiría transformar el éxito puntual de un agente en un activo transferible. En lugar de entregar solo un trace o una repetición visual de la sesión, el sistema deja un playbook legible, editable, versionable y auditable por humanos.

Dónde destaca y dónde falla

Autobrowse fue presentado como una herramienta especialmente útil en sitios que requieren verdadera exploración. Entre los casos destacados figuran las APIs ocultas o no documentadas, el renderizado pesado del lado del cliente, los flujos de autenticación de varios pasos y las interfaces cuyo camino más corto y confiable exige varias horas de ingeniería inversa humana.

Uno de los ejemplos mencionados fue un portal federal de subvenciones. Allí, el agente encontró un endpoint JSON no documentado que devolvía todas las grants activas en una sola llamada. Lo que parecía exigir un raspado de 28 páginas se redujo a un único browse fetch, y ese descubrimiento quedó incorporado en la skill graduada para futuras ejecuciones.

Browserbase también compartió un benchmark interno sobre Craigslist. En un loop tradicional de Claude Code, la tarea costó alrededor de USD $0,22 y tomó unos 71 segundos. Con una skill graduada de Autobrowse, el costo bajó a cerca de USD $0,12 y el tiempo se redujo a 27 segundos.

En otro experimento temprano de llenado de formularios, el costo cayó de USD $1,40 por ejecución a USD $0,24 por ejecución en cuatro iteraciones. La mejora, según la descripción publicada, no provino de un modelo más potente sino de dejar que el propio agente detectara qué partes de su enfoque no estaban aportando valor.

Pero la propuesta también tiene límites claros. Jeong advirtió que Autobrowse no es la herramienta correcta para tareas de parsing determinista. Relató el caso de un catálogo estatal estático en HTML con 167 filas, donde los datos ya estaban en el marcado, sin JavaScript, autenticación ni defensas anti-bot.

Aun así, se probó el enfoque de alta agencia. Después de cuatro iteraciones y un gasto aproximado de USD $24, el loop seguía sin devolver las 167 filas completas en una sola salida. El límite de salida por turno del modelo truncaba su razonamiento, mientras el sistema seguía intentando ser inteligente en un problema que no lo necesitaba.

La solución terminó siendo mucho más simple: unas 200 líneas de Python determinista con browse fetch y BeautifulSoup. El tiempo de ejecución cayó por debajo de un segundo, el costo de inferencia se redujo a cero y las 167 filas quedaron expuestas. La lección, según el autor, es que elegir el nivel de agencia correcto sigue siendo una decisión de ingeniería fundamental.

Por qué Browserbase cree que esto puede cambiar los flujos de trabajo

El planteamiento de Autobrowse encaja en una discusión más amplia sobre el futuro de los agentes web. Una narrativa común sostiene que estos sistemas serán realmente útiles cuando los modelos de base mejoren lo suficiente. Jeong cuestiona esa idea y propone otra lectura: incluso un modelo perfecto tendría que redescubrir cada sitio nuevo si no existe un lugar donde almacenar lo aprendido.

En ese marco, una skill actuaría como un traspaso de conocimiento entre el agente y las personas responsables del workflow. Un ingeniero puede leerla, editarla y versionarla. Pero también podría revisarla alguien no técnico, como un technical PM, un vicepresidente de tecnología o un gestor de subvenciones familiarizado con un portal específico.

Ese cambio es relevante porque convierte el resultado del agente en algo apropiable por una organización. La lógica deja de estar atrapada en una ejecución efímera y pasa a residir en un documento operativo. En vez de pedir confianza ciega en la salida, el sistema ofrece un playbook que puede revisarse y depurarse.

Además, Browserbase sostiene que existe un efecto compuesto. Cada nuevo sitio explorado por un agente puede dejar una skill duradera adicional. Con el tiempo, la biblioteca crece y reduce el impuesto de descubrimiento en la larga cola de tareas repetitivas. Para Jeong, el premio real no es una sola skill útil, sino un directorio público cada vez más amplio que cualquiera pueda reutilizar al ejecutar un browser agent.

Qué sigue para Autobrowse

Entre las líneas de desarrollo en curso aparece una heurística de parada más sofisticada. Hoy el sistema limita las iteraciones a un número pequeño y corta cuando costo y cantidad de turnos convergen. La meta ahora sería evaluar con más precisión la convergencia, incluyendo comparaciones de la estructura del trace entre ejecuciones.

Otra prioridad es dar mejores priors al agente sobre cómo explorar. En vez de abrir una sesión completa de navegador desde el inicio, Browserbase quiere reforzar el uso temprano de primitivas como fetch y search. También considera permitir la inspección de trazas de navegador, eventos de red y registros CDP para descubrir APIs internas observando solicitudes de red.

La línea más ambiciosa, según Jeong, es la versión recursiva del proyecto: Autobrowse mejorando Autobrowse. En ese escenario, el propio sistema podría ayudar a graduar mejoras para su loop de iteración, sus heurísticas de convergencia, sus prompts y sus plantillas de skill, del mismo modo en que hoy aprende habilidades para sitios individuales.

Con ello, Browserbase apuesta a que el avance de los agentes de navegador no dependerá solo de modelos cada vez más capaces. Su hipótesis es más estructural: sin una memoria durable, legible y reutilizable, cada sesión seguirá siendo un nuevo comienzo. Autobrowse intenta convertir ese aprendizaje fugaz en infraestructura operativa.


Imagen original de DiarioBitcoin, creada con inteligencia artificial, de uso libre, licenciada bajo Dominio Público.

Este artículo fue escrito por un redactor de contenido de IA y revisado por un editor humano para garantizar calidad y precisión.


ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.

Suscríbete a nuestro boletín