Entrevistas IA Startups Tecnología

Ex Google Brain advierte que la IA visual sigue lejos de la AGI pese al boom de los modelos

𝕏

Hace 53 minutos

Por Canuto

Un exintegrante de Google Brain sostiene que la industria está sobreestimando el nivel real de la inteligencia artificial. Aunque los grandes modelos ya brillan en texto, código y matemáticas, Andrew afirma que siguen fallando en tareas visuales básicas, un vacío que limita su adopción en sectores empresariales clave.
***

Andrew, exinvestigador de Google Brain, asegura que la IA actual no merece ser llamada AGI porque su comprensión visual sigue rezagada.
El investigador reivindicó el papel de Google Brain en el auge de los LLM y comparó su legado con el de Bell Labs.
Su nueva empresa, Lorien, busca desarrollar modelos orientados a la “AGI visual” para sectores como ingeniería, arquitectura y centros de datos.

La discusión sobre si la inteligencia artificial ya alcanzó la AGI, o inteligencia artificial general, volvió a encenderse tras nuevas declaraciones de Andrew, exintegrante de Google Brain y hoy cofundador de la startup Lorien.

En una conversación con el entrevistador Ross, del canal Inside the Silicon Mind with Firas Sozan, el investigador defendió una tesis incómoda para el entusiasmo actual del mercado: la IA todavía está muy lejos de comprender el mundo visual con la competencia que exigen las empresas.

Su argumento central es simple, pero duro. Los modelos pueden rendir muy bien en texto, programación y matemáticas, pero siguen mostrando limitaciones severas cuando deben razonar sobre imágenes, espacios, objetos y relaciones físicas.

Para Andrew, ese rezago invalida buena parte del discurso que hoy presenta a la IA como si ya hubiese cruzado el umbral de la inteligencia general. Desde su perspectiva, no basta con escribir código o responder preguntas complejas si el sistema no puede resolver tareas visuales elementales.

La afirmación es relevante porque proviene de alguien que participó en una de las etapas fundacionales de la IA moderna. Durante 14 años en Google, trabajó junto a figuras que luego marcarían el rumbo de la industria desde OpenAI, Anthropic, DeepMind y otras firmas de frontera.

Por qué Andrew cree que la IA actual sigue lejos de la AGI

Andrew sostuvo que muchas empresas aún hacen un uso mínimo de la IA, a pesar del ruido que rodea al sector. En su opinión, la razón principal es que gran parte del trabajo corporativo importante no es puramente textual, sino visual.

Ahí entran actividades como diseñar planos, revisar diagramas eléctricos, modelar piezas de ingeniería o interpretar conexiones dentro de un centro de datos. Según explicó, los modelos actuales siguen sin desenvolverse bien en ese tipo de tareas.

Como referencia, citó el benchmark Baby Vision. De acuerdo con su lectura, ese tipo de pruebas muestra que los sistemas todavía operan al nivel de un preescolar, ni siquiera de un estudiante de primaria.

Andrew detalló ejemplos concretos para ilustrar esa carencia. Dijo que muchos modelos no pueden contar cuántos vasos hay sobre una mesa, resolver juegos de tablero simples ni entender problemas espaciales básicos.

Tampoco logran, añadió, identificar con precisión a qué dos puntos está conectado un cable. Para un asistente de IA que aspire a ayudar en la construcción de centros de datos, ese tipo de fallo no es un detalle menor, sino una limitación estructural.

El contraste con el desempeño en lenguaje es lo que, a su juicio, distorsiona la percepción pública. En texto, código y ciertas tareas matemáticas, Andrew considera que la tecnología ya está en una etapa comparable a un iPhone relativamente avanzado.

En visión, en cambio, comparó la situación con un antiguo Nokia de baja capacidad. Incluso ironizó con que, en esa dimensión, es como si la industria todavía operara con cámaras de resolución 64 por 64, donde todo se ve pixelado y confuso.

El legado de Google Brain y el origen de una pieza clave de los LLM

Durante la entrevista Ex-Google Insider: You’re Not Ready For The Next Phase of AI, Andrew repasó parte de su trayectoria y del entorno en que surgieron varios de los avances que hoy sustentan el auge de los modelos de lenguaje.

Contó que llegó al área de la bahía hace 14 años, se integró primero a un equipo que acabaría convirtiéndose en Google Now y, poco después, se unió a Google Brain cuando el grupo todavía tenía unas 30 personas.

Allí coincidió con nombres como Ilya Sutskever y Oriol Vinyals. Un año después de entrar, escribió junto a Quoc Le un paper de 2015 sobre preentrenamiento y ajuste fino que, según explicó, anticipó una parte crucial de la lógica usada hoy en chatbots y LLM.

El trabajo nació como una exploración para mejorar la representación de párrafos. Lo que terminó funcionando fue entrenar un modelo con el objetivo de modelado de lenguaje y luego ajustarlo para análisis de sentimiento sobre reseñas de películas de Rotten Tomatoes.

El resultado, señaló, superó a otros métodos supervisados de clasificación de la época, incluso frente a propuestas basadas en LSTM. En aquel momento todavía no existían los transformers, por lo que la arquitectura usada era distinta a la dominante hoy.

También probaron la misma intuición con imágenes. Rasterizaron imágenes fila por fila para predecir la siguiente línea de píxeles y luego hicieron fine-tuning, logrando resultados competitivos aunque sin alcanzar el mejor estado del arte.

Para Andrew, los componentes esenciales de los LLM actuales pueden resumirse en un triángulo. Mencionó el transformer, el objetivo de modelado de lenguaje con fine-tuning y el entrenamiento con datos de la web.

En ese marco, defendió que el objetivo de modelado de lenguaje fue una pieza crítica. Recordó que en 2015 todavía había investigadores que se preguntaban para qué servía entrenar language models, porque su uso práctico estaba limitado a tareas como decodificación y reconocimiento de voz.

Según relató, él y Quoc Le ya creían entonces que el modelado de lenguaje terminaría siendo el núcleo de la comprensión del lenguaje. Con el tiempo, esa intuición se extendió a aplicaciones como Smart Reply, Smart Compose, Google Health y luego a la evolución que se vio de GPT-1 a GPT-3.

Cultura, talento y el “Bell Labs” de la era de la IA

Más allá de la tecnología, Andrew puso un fuerte énfasis en la cultura interna de Google Brain. A su juicio, el verdadero diferencial no fue solo la capacidad técnica, sino la libertad para pensar, experimentar y equivocarse sin la presión inmediata de producto.

Describió ese ambiente como una etapa de innovación abierta. Las ideas nuevas se discutían en almuerzos, pasillos y micro cocinas, y luego los investigadores se lanzaban a probarlas con entusiasmo.

En su relato, esa atmósfera favorecía la seguridad psicológica. Las personas podían mostrar resultados preliminares, incluso erróneos, recibir críticas y cambiar de dirección sin temor a quedar expuestas ante sus pares.

También resaltó el papel del Brain Residency Program. Según explicó, el programa atraía a miles de postulantes, aceptaba a muy pocos y no se limitaba a filtrar por GPA o brillo académico tradicional.

Google Brain, dijo, buscaba personas con trayectorias poco convencionales, ideas frescas y formas distintas de pensar. Para Andrew, ese criterio ayudó a sembrar la creatividad que luego se tradujo en nuevas líneas de investigación y en la aparición de futuras startups líderes.

Cuando se le pidió identificar un hilo común entre tantos investigadores que luego fundaron compañías importantes, no señaló una universidad específica. Prefirió hablar de pasión, curiosidad intensa y el deseo genuino de empujar la frontera del conocimiento.

Andrew recordó que, al entrar, sintió muy pronto que estaba dentro de un entorno históricamente importante. Mencionó la presencia de figuras como Geoff Hinton, a quien describió como una leyenda creativa incluso hace una década.

Asoció buena parte de esa cultura a la influencia de Hinton y a la idea de modelar sistemas de aprendizaje inspirados en el cerebro humano. En esa visión, la clave es construir redes generales y dejar que los datos y el entrenamiento conduzcan la evolución del modelo.

También subrayó la importancia de la proximidad física entre investigadores de élite. Usó la palabra “osmosis” para describir cómo se aprende observando de cerca el criterio de líderes de investigación, desde cuándo abandonar un proyecto hasta cuándo insistir pese a los obstáculos.

Por qué tantos talentos salieron de Google y qué busca hacer Lorien

Una parte de la conversación giró sobre una pregunta inevitable. Si Google Brain reunió tanto talento y generó avances decisivos, ¿por qué tantas empresas de frontera terminaron naciendo fuera de Google?

Andrew respondió que eso forma parte del ethos de Silicon Valley. Para muchos investigadores, una gran tecnológica es una plataforma excelente para crecer, pero llega un momento en que el margen para seguir expandiéndose se vuelve más político y menos creativo.

En ese punto, describió tres salidas comunes. Buscar más promociones, saltar a otra gran empresa o fundar algo propio con mayor control sobre el rumbo y menos dependencia de dinámicas internas.

Él eligió la tercera vía. Explicó que, si lograba reunir un gran equipo y conseguir financiamiento, veía natural construir una nueva apuesta en la frontera de la IA.

Así nació Lorien, una firma que definió como laboratorio de investigación y producto. Al momento de la entrevista, la empresa llevaba cinco meses y medio de operación y había sido creada junto a colegas con experiencia en Apple y DeepMind.

El objetivo de Lorien es avanzar hacia lo que Andrew llama “AGI visual”. La apuesta parte de una década observando el progreso extraordinario de los modelos de lenguaje y detectando, al mismo tiempo, el gran vacío que persiste en capacidades visuales y físicas.

Para él, ahí está uno de los principales cuellos de botella para la adopción empresarial. No se puede diseñar un motor de avión nuevo solo con código, ni crear un cohete únicamente con matemáticas abstractas, porque intervienen elementos visuales y del mundo físico.

Andrew enumeró varias áreas donde una IA visual más competente podría generar valor. Citó ingeniería, diseño CAD y CAM, arquitectura, agricultura, construcción e imagen general aplicada a industria.

También mencionó el caso de los centros de datos, que se están construyendo con gran rapidez. Sin embargo, insistió en que los modelos actuales ni siquiera pueden identificar con fiabilidad a qué dos componentes conecta un cable, lo que revela la magnitud del problema.

El peso histórico de Google Brain en la industria actual

Andrew conectó el presente de Lorien con el pasado de Google Brain. Recordó que, en su paso por la organización, vio de cerca a investigadores que después fundarían o liderarían algunas de las firmas más influyentes del sector.

Mencionó a Sarah Hooker en Cohere, Ilya Sutskever en SSI y Dario Amodei en Anthropic, entre otros nombres asociados al árbol genealógico de Google Brain y DeepMind. También dijo que, antes de GPT-3, tuvo como internos a Liam Fedus, Demis Hassabis y David Ha.

Cuando se le preguntó cómo será recordado Google Brain en 20 años, su respuesta fue tajante. Dijo que probablemente será visto como el Bell Labs de esta era.

Con esa comparación quiso resaltar una institución que no solo produjo avances técnicos, sino que incubó a las personas que luego definieron toda una etapa industrial. En su lectura, buena parte de la IA de frontera actual desciende cultural y científicamente de ese núcleo.

Andrew cree que los LLM seguirán existiendo dentro de 20 años, aunque acompañados por nuevas capas tecnológicas. Su esperanza es que esas futuras innovaciones también mantengan viva la cultura de investigación abierta y ambiciosa que, según su relato, caracterizó a Google Brain en su mejor momento.

La entrevista deja una conclusión clara para el ecosistema tecnológico y financiero. El mercado puede celebrar avances sorprendentes en asistentes, agentes y automatización, pero aún existe una brecha seria entre la destreza lingüística de la IA y su comprensión del mundo visible.

Si esa brecha no se cierra, la promesa de una inteligencia artificial verdaderamente general seguirá siendo, al menos por ahora, más una narrativa de mercado que una realidad operativa. Ahí es donde Andrew ubica la próxima gran fase de la competencia entre laboratorios de IA.

Imagen original de DiarioBitcoin, creada con inteligencia artificial, de uso libre, licenciada bajo Dominio Público.

Este artículo fue escrito por un redactor de contenido de IA y revisado por un editor humano para garantizar calidad y precisión.

ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.

Suscríbete a nuestro boletín

𝕏

Artículos Relacionados

China

Anthropic acusa a Alibaba de extraer ilícitamente capacidades de Claude

Empresas

Micron supera estimaciones y proyecta ingresos récord por auge de la IA

Estados Unidos

Sony Pictures invierte USD $100 millones en Cosm para expandir la realidad virtual inmersiva

Empresas

Qualcomm presenta Dragonfly C1000, su nueva CPU para IA que Meta usará desde 2028

Publicidad

Las Top 10 Criptos (Volumen)

USDT	Tether USDt	-0,02%	$78,06 mmd
BTC	Bitcoin	-3,11%	$42,01 mmd
ETH	Ethereum	-3,0%	$14,53 mmd
USDC	USDC	0,0%	$13,13 mmd
SOL	Solana	-3,2%	$3,22 mmd
XRP	XRP	-2,99%	$2,21 mmd
BNB	BNB	-2,31%	$1,33 mmd
USD1	World Liberty Financial USD	-0,02%	$1,14 mmd
DOGE	Dogecoin	-4,17%	$0,957 297 mmd
TRX	TRON	-0,4%	$0,892 225 mmd

DiarioBitcoin.com

Criptos Ganadoras

AAVE	Aave	11,66%	$81,01
LIT	Lighter	7,79%	$1,64
MORPHO	Morpho	6,18%	$1,73
JUP	Jupiter	5,66%	$0,219 954
SEI	Sei	3,86%	$0,055 485
JTO	Jito	3,01%	$0,694 279
STABLE	Stable	2,1%	$0,035 178
ONDO	Ondo	2,07%	$0,318 755
GRAM	Gram (prev. Toncoin)	1,91%	$1,59
HYPE	Hyperliquid	0,97%	$63,29

DiarioBitcoin.com

Criptos Perdedoras

M	MemeCore	-67,95%	$0,921 942
BEAT	Audiera	-27,02%	$1,68
PUMP	Pump.fun	-11,16%	$0,001 284
DASH	Dash	-8,09%	$33,54
INJ	Injective	-7,6%	$4,2
LUNC	Terra Classic	-6,72%	$0,000 06
PEPE	Pepe	-6,63%	$0,000 002
POL	Polygon (prev. MATIC)	-6,2%	$0,073 071
ALGO	Algorand	-6,11%	$0,089 626
FIL	Filecoin	-5,59%	$0,745 656

DiarioBitcoin.com