Por Canuto  

Browserbase presentó Browse.sh, un catálogo abierto de más de 100 habilidades de navegador que busca resolver uno de los mayores problemas de los agentes de IA: su tendencia a redescubrir cada sitio web desde cero en cada ejecución, con costos crecientes en tokens, latencia y trabajo repetido.
***

  • Browse.sh debuta con más de 100 skills curadas que cualquier agente puede instalar mediante un comando CLI.
  • La propuesta usa archivos SKILL.md y scripts auxiliares para conservar rutas, selectores, endpoints y estrategias ya descubiertas.
  • Browserbase asegura que una skill creada con Autobrowse redujo de USD $0,22 a USD $0,12 el costo por ejecución en Craigslist, un recorte de 45%.


En el auge de los agentes de inteligencia artificial capaces de operar navegadores, una limitación práctica se ha vuelto cada vez más visible: muchos sistemas todavía abordan cada sitio web como si fuera la primera vez. Eso implica abrir páginas, probar botones, interpretar formularios, descubrir endpoints ocultos y repetir ese esfuerzo una y otra vez. Para Browserbase, ese patrón ya no es un problema de razonamiento, sino de memoria.

Con ese diagnóstico, la empresa anunció Browse.sh, un catálogo abierto de habilidades de navegador diseñado para que cualquier agente pueda instalar experiencia ya documentada y reutilizarla. La idea es sencilla, pero ambiciosa: en lugar de obligar al agente a redescubrir cómo funciona Craigslist, Zillow, GitHub o Airbnb en cada sesión, se le entrega un playbook listo para ejecutar.

Según explicó @kylejeong, Browse.sh se lanza con más de 100 skills curadas, de acceso gratuito y listas para usar. El proyecto también incluye un CLI open source, distribuido como npm i -g browse, para que los agentes controlen navegadores, obtengan páginas, busquen en la web y carguen estas habilidades bajo demanda.

La propuesta llega en un momento en el que herramientas como Claude Code, Cursor y Codex han popularizado la idea de dejar que un modelo opere un navegador. Sin embargo, Browserbase sostiene que la industria sigue pagando una y otra vez el llamado “impuesto de descubrimiento”, es decir, el costo computacional y operativo de reaprender tareas que ya fueron resueltas antes.

Qué es Browse.sh y por qué apunta a un cuello de botella real

Browse.sh se compone de dos piezas. La primera es el catálogo web, donde los usuarios pueden buscar, revisar e instalar skills curadas para navegar sitios reales. La segunda es el Browse CLI, una herramienta que sirve como interfaz práctica para que los agentes ejecuten esas capacidades en entornos de trabajo concretos.

Una skill, en este marco, no es un modelo adicional ni una base vectorial. Browserbase la define como un archivo markdown, llamado SKILL.md, junto con los scripts auxiliares necesarios para repetir un flujo de trabajo de forma confiable. Allí quedan documentados los pasos, selectores, endpoints de API, advertencias, estrategias de respaldo y particularidades del dominio.

La empresa plantea que ese formato tiene una ventaja importante. Al estar basado en texto plano, puede ser leído por humanos, auditado por equipos de producto y ejecutado por agentes. En otras palabras, la memoria operativa no queda enterrada en una caja negra, sino convertida en un playbook reusable y versionable.

Ese enfoque apunta a una necesidad cada vez más relevante para quienes despliegan automatización web en producción. Cuando un agente resuelve por primera vez una tarea, el resultado puede parecer impresionante. Pero si la segunda, la décima y la centésima ejecución vuelven a recorrer el mismo camino de ensayo y error, los costos escalan y la eficiencia se deteriora.

Browserbase resume ese dilema con una frase clara: el razonamiento dejó de ser la principal restricción. Para la compañía, el verdadero cuello de botella es la memoria en una forma que tanto personas como agentes puedan leer y en la que ambos puedan confiar.

El caso Craigslist: menos redescubrimiento, menor costo por ejecución

Para ilustrar el problema, Browserbase compartió un benchmark centrado en Craigslist. De acuerdo con la explicación difundida por la empresa, un agente genérico encargado de buscar anuncios en ese sitio incurre en un costo aproximado de USD $0,22 por ejecución.

Ese gasto no surge solo de leer resultados. El agente debe descubrir que la página de búsqueda está renderizada completamente en JavaScript, detectar una API JSON oculta en sapi.craigslist.org, comprender la lógica de decodificación del arreglo posicional y aprender que item[0] representa un offset, no el identificador del anuncio. A eso se suma el manejo del geoscoping basado en IP.

Browserbase asegura que, tras cuatro iteraciones de su sistema Autobrowse, la skill graduada para Craigslist logra hacer el mismo trabajo por cerca de USD $0,12 por ejecución. Eso equivale a una reducción de 45% frente al bucle genérico inicial.

La compañía atribuye esa mejora a una mejor memoria operativa. En vez de obligar al agente a volver a derivar el endpoint no documentado, las tablas de decodificación y el ajuste para geolocalización en cada sesión, la skill conserva esa ruta más corta y confiable, y la reutiliza cada vez que se necesita.

En un entorno donde los agentes pueden ejecutar miles de sesiones, esa diferencia deja de ser marginal. Según la tesis de Browserbase, una curva de costo que sigue creciendo linealmente por reaprendizaje constante puede transformarse en otra mucho más eficiente si el conocimiento descubierto se conserva como una pieza reutilizable.

Skills como nueva primitiva para agentes de IA

La apuesta de Browse.sh se apoya también en una tendencia más amplia dentro del ecosistema de agentes. Browserbase argumenta que la industria ya avanza hacia sistemas que cargan instrucciones especializadas desde archivos markdown, en lugar de depender solo del razonamiento improvisado del modelo.

En esa visión, las skills se están convirtiendo en una nueva primitiva. La empresa menciona que Claude Code ya incorpora skills, que OpenAI Codex también las soporta y que el estándar AgentSkills está ganando tracción. Browse.sh intenta extender esa lógica al terreno del navegador, donde la complejidad de la web vuelve especialmente costoso el aprendizaje repetido.

Ese diagnóstico tiene sentido en sitios modernos, donde los contenidos cambian según el navegador, partes clave quedan ocultas detrás de JavaScript, algunos datos solo aparecen en endpoints no documentados y las defensas automatizadas pueden activar CAPTCHAs de forma impredecible. Un agente genérico puede resolver parte de ese caos en tiempo real, pero si no conserva lo aprendido, la siguiente sesión vuelve a empezar casi desde cero.

Para Browserbase, el valor de Browse.sh está precisamente en capturar ese aprendizaje y transferirlo. La misma skill puede servir al siguiente agente, al siguiente desarrollador, al siguiente compañero de equipo o incluso a otro cliente. En vez de memoria efímera, la plataforma propone memoria acumulativa.

Autobrowse, catálogo abierto y generación de nuevas skills

Detrás de cada skill está Autobrowse, el sistema de la empresa para “usar IA para mejorar IA”. Según la explicación disponible, el proceso consiste en asignar a un agente una tarea real en un sitio real, dejarlo completar el flujo de punta a punta, analizar su propio rastro e iterar sobre la estrategia hasta que deje de ser una solución afortunada y se convierta en un procedimiento confiable.

Una vez que Autobrowse converge, escribe una skill duradera. Ese artefacto puede incluir desde un endpoint JSON no documentado hasta una espera breve antes de enviar un formulario, o un script auxiliar específico de ese dominio. Todo eso se versiona junto a la skill para que pueda mantenerse y reutilizarse.

El catálogo lanzado por Browse.sh abarca varias áreas. En marketplaces incluye Craigslist, Zillow, Amazon y eBay. En comida y dining incorpora OpenTable, DoorDash y pedidos online de McDonald’s. También cubre viajes, con búsqueda de vuelos, reservas de hoteles y Airbnb; gobierno, con portales de subvenciones federales y catálogos de programas estatales; herramientas de desarrollo como GitHub, npm y sitios de documentación; además de SaaS empresarial mediante integraciones con socios.

Cada skill aparece etiquetada por categoría, estado de verificación y sitio de destino. Browserbase indicó además que las skills desarrolladas con partners como Ramp, Lovable, Poke y Reducto cuentan con una insignia de verificado, un detalle que apunta a generar mayor confianza en flujos de trabajo sensibles o comerciales.

La compañía también abrió la puerta a la creación de nuevas skills por parte de la comunidad. Si un usuario no encuentra la habilidad que necesita, puede escribir el dominio y la tarea en Browse.sh, y Autobrowse generará una nueva skill. Luego de iterar sobre el sitio real hasta converger, el resultado se publica en el catálogo público para que cualquiera pueda usarlo.

Para quién está pensado y qué visión propone Browserbase

Browserbase orienta Browse.sh a varios perfiles. Entre ellos menciona a ingenieros de IA que construyen agentes para QA, extracción de datos, llenado de formularios o monitoreo; equipos de producto que buscan funciones basadas en navegador con playbooks auditables; equipos de plataforma enfocados en recortar gasto en tokens y latencia; y usuarios de Claude Code, Cursor o Codex que quieren navegación web con experiencia ya incorporada.

Más allá del producto puntual, la empresa plantea una visión estratégica sobre el futuro de los agentes de navegador. Frente a la idea extendida de que estos sistemas mejorarán solo cuando aparezcan modelos más potentes, Browserbase sostiene que incluso un modelo perfecto seguirá necesitando memoria persistente para no redescubrir lo mismo en cada sitio nuevo.

Ese matiz es importante. La web no se está volviendo más simple, sino más caótica. Si esa tendencia continúa, la distancia entre “poder razonar sobre una página” y “conocer la ruta más rápida a través de este sitio específico” seguirá siendo un problema operativo. Browse.sh intenta posicionarse como el lugar donde esa experiencia deja de perderse.

En ese sentido, el lanzamiento no solo presenta un catálogo y un CLI, sino una tesis sobre infraestructura para agentes. Browserbase cree que el desbloqueo real no vendrá únicamente de mejores modelos, sino de una memoria compuesta, auditable y ejecutable. Su conclusión es directa: el cuello de botella nunca fue la inteligencia, sino la amnesia.


ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.

Suscríbete a nuestro boletín