Un agente de IA creó una app con 400 clientes de pago tras 2.000 entrevistas

𝕏

Hace 4 minutos

Por Canuto

Listen Labs aseguró que uno de sus agentes de IA completó casi por sí solo el ciclo completo de creación de un producto digital: investigar usuarios, construir, probar, corregir y vender. El resultado fue StyleFits, una app de estilismo personal que consiguió más de 400 clientes de pago, aunque todavía no alcanza rentabilidad.
***

Un agente de IA realizó 2.000 entrevistas en dos semanas y evaluó 100 conceptos antes de elegir un producto.
La primera app, LooksMax, fracasó en pruebas de usuarios y obligó a un giro hacia StyleFits, con foco en privacidad y utilidad.
El experimento generó USD $1.293, pero gastó USD $2.000 en anuncios de Meta, dejando claro que aún no es un negocio rentable.

La idea de un “negocio de cero personas” suele sonar a exageración de marketing. Sin embargo, un experimento reciente de Listen Labs intenta llevar ese concepto a un terreno más concreto al mostrar cómo un agente de IA puede recorrer casi todo el camino entre una oportunidad detectada y un producto con ventas reales.

Según relató Listen Labs en su publicación Our intern built the first zero-person business, el sistema no recibió una idea cerrada de producto. En cambio, se le asignó una meta amplia: actuar como un fundador autónomo y crear una aplicación viral usando entrevistas a usuarios realizadas mediante la plataforma de la empresa.

La restricción clave era que el producto debía construirse sobre los nuevos modelos de imagen. Ese límite acotó el espacio de búsqueda del agente, pero también lo obligó a encontrar un caso de uso donde la generación y análisis visuales pudieran tener sentido comercial.

Tras dos semanas y 2.000 entrevistas, el resultado fue StyleFits, un estilista personal impulsado por IA. La aplicación logró más de 400 usuarios reales que pagaron por el servicio, una señal que la empresa considera relevante pese a que el proyecto aún no sea rentable.

El caso ofrece un vistazo útil para quienes siguen de cerca la intersección entre inteligencia artificial, automatización y creación de startups. También plantea una pregunta más profunda: si la IA puede construir productos, ¿qué tan importante sigue siendo el contacto continuo con clientes humanos para no perder el rumbo?

Cómo comenzó el experimento y qué buscaba demostrar

El experimento comenzó cuando Veer, identificado en la publicación como el pasante involucrado, le dio al agente una instrucción breve pero ambiciosa. Le dijo que era un agente fundador autónomo y que su objetivo consistía en crear una aplicación viral utilizando las entrevistas de Listen Labs.

Esa formulación importa porque el sistema no partió de una tesis de mercado ya validada. No se le entregó una idea como “haz una app de moda” o “construye un asistente de compras”, sino un proceso abierto guiado por investigación de usuarios.

La empresa explica que el agente ejecutó por sí mismo el ciclo de investigación, análisis, programación e implementación. En total, utilizó más de 163,2 millones de tokens durante la experiencia, una cifra que da una idea del costo computacional detrás del ensayo.

No obstante, el proceso no fue completamente autónomo en términos prácticos. El agente no pudo superar verificaciones de identidad humana, como entregar una selfie y una identificación para abrir una cuenta publicitaria en Meta, ni tampoco pegar claves activas de Stripe y Supabase.

Cuando apareció ese tipo de bloqueo, el sistema generaba tareas para que una persona del equipo las ejecutara. Eso significa que el “negocio de cero personas” todavía depende de intervención humana en puntos regulatorios y operativos sensibles.

De 200 entrevistas iniciales a 100 conceptos de producto

La fase de descubrimiento arrancó con un estudio de n=200 sobre frustraciones cotidianas que la gente estaría dispuesta a pagar por resolver. Ese primer barrido permitió identificar cerca de 10 puntos de dolor recurrentes en áreas como tareas domésticas, traslados, programación, dinero y auto-presentación.

Después vino una fase de ideación y prueba de conceptos que la empresa compara con una búsqueda en amplitud. El agente usó subagentes para generar lotes de 10 conceptos por cada dolor detectado y luego lanzó estudios en paralelo para medir gravedad del problema y disposición a pagar.

En total, fueron evaluados 100 posibles productos. El proceso descartó varias categorías porque, aunque importantes para los usuarios, no presentaban una urgencia suficiente como para gatillar una adopción inmediata de una nueva app.

Los desplazamientos, las tareas del hogar, la programación personal y la planificación de comidas aparecían fragmentados entre muchos microproblemas. Según el análisis, la reacción dominante era algo parecido a “es importante, pero me las arreglo”, una señal débil para construir un negocio de consumo rápido.

En otros casos, como deuda o empleo, el dolor existía pero la confianza en una app era escasa. La conclusión del agente fue que la auto-presentación, es decir, cómo se ven las personas y qué ponerse, aparecía como un dolor recurrente entre jóvenes de 18 a 25 años y además encajaba con la limitación técnica basada en modelos de imagen.

LooksMax fracasó y obligó al agente a cambiar de dirección

Con ese hallazgo, el agente construyó su primer producto en vivo: LooksMax. La propuesta consistía en calificar la apariencia de los usuarios a partir de una foto y sugerir combinaciones de colores.

La respuesta inicial fue mala. En las primeras rondas de prueba con usuarios, el NPS llegó a -38, un resultado que reflejaba rechazo y confusión frente al planteamiento del producto.

El 57% de las personas creyó que estaba recibiendo una prueba virtual de atuendos y estilos renderizados sobre su propia foto. Esa diferencia entre expectativa y experiencia mostraba un problema serio de comunicación y de diseño del flujo.

El 75% dudó o se negó a pagar una tarifa de USD $1. La resistencia al pago no solo afectaba la monetización, sino que sugería que el valor percibido seguía siendo demasiado bajo incluso para una cantidad mínima.

La privacidad fue otro obstáculo central. El 96% no vio señales creíbles de protección de datos, algo especialmente delicado en un producto que pide selfies y procesa rasgos faciales.

Además, el marco conceptual de LooksMax generó rechazo. El 72% encontró poco atractivo el nombre, y el 78% dijo que una puntuación cuantificada de atractivo resultaba activamente dañina.

Una de las citas recogidas por la empresa resume bien ese malestar. Un usuario afirmó que la idea se sentía increíblemente poco atractiva y, de hecho, algo ofensiva.

El giro hacia StyleFits y la importancia de la confianza

A partir de esas críticas, el agente identificó tres demandas clave de los usuarios: querían un estilista real, más personalización y una señal clara de confianza. En vez de insistir con la lógica de “puntuar belleza”, cambió de enfoque.

Ese giro dio origen a StyleFits. La nueva versión se enfocó en recomendaciones de atuendos, cortes de cabello y colores, lo que acercaba la experiencia a un servicio de estilismo más que a una evaluación estética.

Listen Labs señala que el rediseño incorporó un mensaje de producto actualizado y verificación de privacidad. Esa combinación llevó la comprensión del producto al 100%, según sus pruebas internas con usuarios.

La mejora no fue menor porque la preocupación por el manejo de imágenes personales seguía siendo un factor crítico. Un participante citado en la publicación dijo que la ausencia de coincidencia facial y de una base de datos de rostros lo hacía sentir más cómodo usando el sitio web.

Ese aprendizaje refuerza una lección común en productos de IA orientados al consumidor. La novedad técnica puede captar atención, pero la conversión suele depender de señales concretas de utilidad, claridad y resguardo de datos.

Precios, primer informe gratis y enlaces de compra

Luego del rediseño, el agente pasó a una fase de optimización continua. Realizó nuevas rondas de pruebas para medir usabilidad, disposición a pagar e impacto de distintos cambios sobre la experiencia final.

La primera estructura de precios cobraba USD $5 por ocho informes. Sin embargo, muchos usuarios comparaban el servicio con ChatGPT gratuito, no con un estilista humano, lo que reducía el techo psicológico del precio aceptable.

Frente a esa referencia, el agente ajustó el modelo comercial a USD $3 por ocho informes. La empresa calcula ese valor en cerca de USD $0,38 por reporte, con el primer informe gratis.

La gratuidad inicial respondió a otro hallazgo repetido en las entrevistas. Las personas querían ver un resultado antes de pagar, por lo que el flujo fue modificado para ofrecer una primera muestra sin costo.

Tras ese cambio, el interés subió al 88%. Al mismo tiempo, la cantidad de usuarios que se negaba a subir fotos cayó un 67%, lo que sugiere que la combinación de prueba gratuita y mayor claridad mejoró la confianza inicial.

Más adelante apareció otra limitación. A los usuarios les gustaban los looks recomendados, pero no querían pagar solo por ver sugerencias visuales.

Por eso el agente añadió la función más solicitada por el 54% de los participantes: enlaces de compra directos para adquirir las prendas recomendadas. Ese paso acercó la utilidad del producto a una acción concreta y medible dentro del proceso de decisión del usuario.

Usuarios de pago, pérdidas y los límites del modelo autónomo

En la última semana del experimento, el agente usó Listen para probar conceptos de mensajes publicitarios. También generó creatividades con un modelo de imagen y lanzó anuncios en Meta a través de MCP.

El resultado fue la llegada de más de 400 usuarios reales que pagaron. Para una app construida dentro de un experimento y con una interfaz que la propia empresa describe como tosca, ese dato funciona como prueba de demanda inicial.

Aun así, las cifras financieras dejan claro que el proyecto no es rentable en su estado actual. StyleFits generó USD $1.293, pero el equipo gastó USD $2.000 en anuncios de Meta para captar clientes.

La publicación también reconoce límites de calidad en el producto. El modelo de imagen todavía distorsiona algo los rostros y la interfaz de usuario se percibe claramente diseñada por IA.

Más importante aún, el experimento reveló una debilidad metodológica del agente. Según la empresa, el sistema no acumuló correctamente su propia investigación entre estudios sucesivos.

Un ejemplo ilustrativo fue la confianza del usuario. Una prueba temprana ya insinuaba que la gente necesitaba confiar en el producto antes de pagar, pero el agente no integró ese hallazgo en LooksMax y solo añadió señales de confianza después de redescubrir la idea varias pruebas y muchos tokens más tarde.

Listen Labs sostiene que un investigador humano habría transportado ese aprendizaje desde el inicio. Por eso, de repetirse el ensayo, la empresa introduciría más salvaguardias para que el agente acumule ideas entre estudios y priorice las más importantes antes de construir.

Qué significa este caso para la IA aplicada a startups

El experimento no demuestra que la IA ya pueda reemplazar por completo a un fundador humano. Sí sugiere, en cambio, que un agente puede ejecutar una parte importante del ciclo de creación de producto si dispone de herramientas para entrevistar usuarios, leer resultados, programar, iterar y lanzar campañas.

La enseñanza central parece estar menos en la autonomía y más en el circuito de retroalimentación. La empresa argumenta que los agentes pueden construir casi cualquier cosa, pero sin saber qué construir terminarán dando vueltas en círculos.

Ese punto es especialmente relevante en un momento en que muchos proyectos de IA se obsesionan con automatizar la escritura de código. El caso de StyleFits sugiere que la escasez real puede no estar en programar más rápido, sino en aprender más rápido qué vale la pena programar.

Para lectores que siguen mercados tecnológicos, este tipo de prueba también anticipa un nuevo frente competitivo. Las firmas que conecten modelos con investigación de usuarios, pruebas de mercado y canales de distribución podrían acelerar de forma agresiva la validación de productos digitales.

Al mismo tiempo, la experiencia subraya que la monetización, la confianza y la adquisición de clientes siguen siendo cuellos de botella muy humanos. Tener una IA que construye no garantiza rentabilidad, ni elimina los costos publicitarios, ni resuelve por sí sola los requisitos regulatorios y operativos del mundo real.

En ese equilibrio entre promesa y límite radica el valor del experimento. No se trata todavía de una startup plenamente autónoma, pero sí de una señal concreta de que la IA puede avanzar más allá del prototipo y llegar hasta usuarios que pagan, siempre que el proceso permanezca conectado a conversaciones reales con personas.

Imagen original de DiarioBitcoin, creada con inteligencia artificial, de uso libre, licenciada bajo Dominio Público.

Este artículo fue escrito por un redactor de contenido de IA y revisado por un editor humano para garantizar calidad y precisión.

ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.

Suscríbete a nuestro boletín

𝕏

USDT	Tether USDt	-0,01%	$61,94 mmd
BTC	Bitcoin	0,25%	$28,78 mmd
ETH	Ethereum	1,6%	$10,29 mmd
USDC	USDC	0,03%	$8,79 mmd
SOL	Solana	0,28%	$2,35 mmd
XRP	XRP	1,11%	$1,39 mmd
BNB	BNB	0,3%	$1,04 mmd
USD1	World Liberty Financial USD	0,02%	$0,936 761 mmd
DOGE	Dogecoin	1,87%	$0,596 644 mmd
ADA	Cardano	6,23%	$0,531 454 mmd

SPX	SPX6900	9,81%	$0,413 56
WLD	Worldcoin	9,02%	$0,423 01
NEAR	NEAR Protocol	8,61%	$2,08
TIA	Celestia	7,07%	$0,401 074
ADA	Cardano	6,23%	$0,170 302
ETHFI	ether.fi	6,12%	$0,355 807
DEXE	DeXe	5,72%	$23,24
PENGU	Pudgy Penguins	5,68%	$0,006 707
HYPE	Hyperliquid	5,55%	$69,24
BCH	Bitcoin Cash	5,42%	$226,9

M	MemeCore	-9,0%	$1,56
MORPHO	Morpho	-8,01%	$1,95
WLFI	World Liberty Financial	-4,2%	$0,056 285
HBAR	Hedera	-3,68%	$0,071 659
JUP	Jupiter	-2,29%	$0,241 124
币安人生	币安人生	-2,25%	$0,680 405
BEAT	Audiera	-2,13%	$2,8
JTO	Jito	-1,79%	$0,764 671
CC	Canton	-1,78%	$0,137 715
BGB	Bitget Token	-1,62%	$1,68

Un agente de IA creó una app con 400 clientes de pago tras 2.000 entrevistas

Cómo comenzó el experimento y qué buscaba demostrar

De 200 entrevistas iniciales a 100 conceptos de producto

LooksMax fracasó y obligó al agente a cambiar de dirección

El giro hacia StyleFits y la importancia de la confianza

Precios, primer informe gratis y enlaces de compra

Usuarios de pago, pérdidas y los límites del modelo autónomo

Qué significa este caso para la IA aplicada a startups

Suscríbete a nuestro boletín

Artículos Relacionados

ARTS: el método que promete mejorar la investigación automatizada con IA en 22 tareas

Meta alcanza a GPT-5.5 con Watermelon, asegura Alexandr Wang

GPT-4 dominó el índice ECI durante casi un año, revela Epoch AI

AISI advierte que las pruebas de IA subestiman a los agentes cuando limitan el cómputo