IA Opinión Robots Tecnología

La IA mejora por datos, no por inteligencia: la dura tesis de Dwarkesh Patel

𝕏

Hace 18 minutos

Por Canuto

Una nueva reflexión de Dwarkesh Patel plantea que el gran motor del avance reciente en inteligencia artificial no sería una mejora radical en la capacidad de aprender, sino una expansión descomunal del volumen de datos y cómputo. La tesis apunta a una brecha incómoda: los modelos exhiben capacidades impresionantes, pero aún aprenden con una eficiencia muy inferior a la humana.
***

Dwarkesh Patel sostiene que el progreso reciente de la IA depende sobre todo de más datos, más cómputo y más aprendizaje por refuerzo.
El autor compara la experiencia humana con el entrenamiento de modelos y concluye que existe una brecha de eficiencia de miles a millones de veces.
La discusión tiene implicaciones directas para la automatización del trabajo de oficina, la robótica y el futuro de la propia investigación en IA.

La discusión sobre inteligencia artificial suele enfocarse en nuevos modelos, chips más potentes y productos cada vez más capaces. Sin embargo, una tesis reciente plantea que el centro del progreso no está tanto en una inteligencia más eficiente, sino en una acumulación masiva de datos y cómputo.

En The data black hole at the center of AI, Dwarkesh Patel argumenta que una forma útil de definir la inteligencia es por la eficiencia de muestra. Es decir, cuántos datos necesita un sistema para operar con fluidez y competencia en un dominio específico.

Su punto central es que no está claro que la industria haya logrado grandes avances en esa eficiencia de entrenamiento durante los últimos años. En cambio, sugiere que la mejora visible en los modelos proviene sobre todo de ampliar y refinar la distribución de datos disponible.

Según Patel, el aprendizaje por refuerzo ha sido la vía principal para ese salto. Bajo esta lectura, el RL funciona como una máquina de generación de datos sintéticos que usa grandes cantidades de cómputo contra un verificador, una rúbrica o incluso otro modelo que actúa como juez.

Después, el sistema aprende a predecir los recorridos correctos de la misma forma en que aprende a predecir la siguiente palabra en un texto. Para que eso ocurra, el modelo debe tener al menos cierta probabilidad previa de llegar a la solución correcta.

Una inteligencia sostenida por expertos, rúbricas y cantidades masivas de datos

Patel subraya que esa condición inicial exige cantidades enormes de trayectorias humanas expertas en cada campo donde se espera competencia futura. No habla de datos genéricos, sino de insumos muy específicos y diseñados a medida para cada tarea.

Como ejemplo, menciona ofertas laborales de plataformas como Mercor o Surge. Allí aparecen especialistas en Word para convertir documentos heredados en archivos pulidos, expertos legales para redactar reportes realistas de diligencia en fusiones y adquisiciones o presentaciones de valores, y consultores de gestión para producir estudios de mercado modelo.

El argumento va más allá de la especialización del dato. También enfatiza el volumen requerido, ya que cada habilidad implicaría al menos cientos de expertos humanos generando ejemplos de respuesta, escribiendo rúbricas y explicando cadenas de razonamiento.

Desde esa perspectiva, no sorprende que la industria de datos etiquetados y de entornos de RL ya genere miles de millones al año en ingresos. Patel afirma que esa cifra va camino a escalar a decenas de miles de millones.

La imagen que propone para entender a los modelos también es provocadora. En vez de verlos como humanos que aprendieron muchas habilidades, los describe como una especie de monstruo de Frankenstein compuesto por miles de millones de injertos de ejemplos cuidadosamente construidos.

En su lectura, esa metáfora explica por qué un sistema puede mostrar una constelación de capacidades distintas sin que eso implique una eficiencia de aprendizaje comparable a la humana. Las habilidades estarían cosidas a partir de una infraestructura invisible de datos masivos.

La brecha de eficiencia frente a los humanos

Para ilustrar el tamaño de esa brecha, Patel propone varias comparaciones. Si una persona ve y escucha en promedio unas 2.000 palabras por hora, entonces entre el nacimiento y la adultez absorbería alrededor de 200 millones de tokens, usando una estimación generosa.

En contraste, los modelos de frontera serían entrenados con entre decenas y cientos de billones de tokens. Patel dice que eso equivale a una diferencia cercana a un millón de veces.

La segunda comparación se mueve hacia la robótica. Señala que un humano podría aprender a teleoperar casi cualquier robot humanoide o brazo robótico aleatorio en cuestión de horas.

Si la IA pudiera aprender con esa misma velocidad, la robótica podría convertirse en una industria de decenas de billones de dólares. En ese escenario, habría ejércitos de robots Unitree G1 realizando trabajo útil en el mundo físico.

Pero, según su argumento, eso no ocurre porque los sistemas actuales aprenden con mucha menos eficiencia que las personas. Incluso millones de horas de demostraciones no habrían sido suficientes para habilitar desempeño robusto en tareas complejas y abiertas.

Patel usa un tercer contraste con la conducción. Un adolescente puede aprender a manejar un auto con unas 20 horas de práctica, y aun si se agregan 16 años de crecimiento, entendimiento del mundo e intuición física, la cantidad de datos seguiría estando entre tres y cuatro órdenes de magnitud por debajo de lo que usan Waymo y Tesla para entrenar modelos de conducción autónoma.

Las objeciones: evolución, multimodalidad y escalamiento

El autor también aborda varias respuestas frecuentes a este tipo de comparaciones. La primera es la idea de que los humanos ya vienen “preentrenados” por miles de millones de años de evolución, mientras que los modelos parten desde una inicialización aleatoria.

Patel rechaza esa analogía en su forma más literal. Recuerda que el genoma humano tiene unos 3 gigabytes y que solo entre 1% y 2% corresponde a regiones codificantes de proteínas, por lo que, a su juicio, no hay espacio suficiente para almacenar algo equivalente a los parámetros de una red neuronal ya entrenada.

Su interpretación alternativa es que la evolución habría encontrado los hiperparámetros correctos y las funciones de pérdida adecuadas. Bajo ese marco, lo análogo a los pesos concretos de la red se construiría durante la vida de cada individuo, en el conectoma del cerebro.

Incluso si se aceptara la comparación evolutiva, Patel considera que el problema seguiría sin resolverse. La razón es que cada nueva capacidad marginal que se quiere enseñar a los modelos todavía requiere cantidades desproporcionadas de datos adicionales.

Un humano educado no necesita cien profesores distintos para aprender un nuevo lenguaje de programación. En cambio, los modelos preentrenados aún demandan grandes volúmenes de datos para cada habilidad nueva, y luego para la siguiente.

La segunda objeción apunta a que las comparaciones subestiman la experiencia sensorial humana. Si se incluyeran todos los estímulos multimodales desde el nacimiento hasta la adultez, el volumen podría ascender a decenas o cientos de miles de millones de tokens equivalentes.

La respuesta de Patel es que personas ciegas o sordas siguen mostrando inteligencia general. Para él, eso sugiere que no son necesariamente esos miles de millones de tokens sensoriales los que explican lo esencial de la inteligencia humana.

Incluso va más lejos con el ejemplo de personas sordas que se comunican por lectura y lenguaje de señas. En su opinión, ese grupo probablemente recibe bastante menos que los 200 millones de tokens lingüísticos estimados antes, lo que podría volver conservadora la brecha inicial.

La tercera objeción se relaciona con las leyes de escalado. Según esta visión, modelos más grandes son más eficientes en muestra, de modo que tal vez bastaría con incrementar uno o dos órdenes de magnitud el tamaño de los sistemas actuales para acercarse al aprendizaje humano.

Patel responde que las ecuaciones de escalado no respaldan esa esperanza en la magnitud necesaria. Tomando como referencia las constantes del trabajo de Chinchilla, dice que incluso si el número de parámetros aumentara al infinito, la cantidad de datos requerida para mantener la misma pérdida solo caería por un factor de diez.

Esa mejora, afirma, está muy lejos de cerrar una brecha que estima en miles o millones de veces. Por eso concluye que los humanos y los modelos actuales probablemente operan sobre curvas de escalado diferentes.

Qué significa esto para empleos, modelos abiertos y automatización

Más allá del debate técnico, Patel pregunta por qué debería importar la eficiencia de muestra. Su respuesta es que la cuestión toca dos objetivos centrales de los laboratorios de IA: automatizar trabajo de oficina y automatizar la propia investigación en IA.

En el primer caso, la apuesta sería que muchas tareas de un ingeniero de software, un analista o un contador son lo bastante comunes como para incorporarlas con facilidad a la distribución de entrenamiento. Patel señala que las curvas de ingresos recientes de los laboratorios sugieren que ya existe valor significativo en ese enfoque.

Su idea es que la ineficiencia de entrenamiento no necesariamente invalida el modelo económico. Aunque formar a la IA sea más costoso en datos que formar a un humano, el aprendizaje puede amortizarse en miles de millones de sesiones simultáneas.

Patel lo formula con una comparación deliberadamente extrema. Si un humano necesitara leer todos los repositorios públicos de GitHub antes de ser un ingeniero competente, no tendría sentido entrenarlo, porque agotaría gran parte de su vida útil en el proceso.

Con una IA, en cambio, es posible inyectar gigavatios de entrenamiento de una sola vez. Luego, lo aprendido se replica a escala y puede seguir siendo rentable incluso si el proceso es absurdamente ineficiente desde un punto de vista biológico.

Ahora bien, el autor distingue entre empleos mecánicos y predecibles, que ya podían automatizarse desde antes de la era moderna de la IA, y trabajos que enfrentan a diario problemas alejados de la distribución conocida. Para él, la ingeniería de software se parece más a esta segunda categoría.

De hecho, Patel dice que estaría dispuesto a apostar a que en 2028 habrá más demanda total de ingenieros de software humanos que ahora. Su argumento es que la IA podría funcionar como insumo complementario en vez de reemplazo pleno.

Esto conecta con otra observación llamativa del análisis. Epoch reportó recientemente que los modelos abiertos están apenas cuatro meses por detrás de los sistemas de frontera, y Patel cree que eso es más fácil de explicar si el principal motor del avance es el dato.

En su interpretación, los datos pueden destilarse con relativa facilidad desde APIs públicas. En cambio, los hiperparámetros, trucos de entrenamiento y optimizaciones arquitectónicas son mucho más difíciles de copiar, de modo que, si esos factores dominaran el progreso, la brecha sería más difícil de cerrar.

La pregunta final: ¿puede la IA resolver su propio cuello de botella?

La parte más ambiciosa de la tesis aparece cuando Patel aborda el futuro de la investigación en IA. Según su descripción, el plan de los laboratorios para los trabajos menos rutinarios sería automatizar primero la investigación en IA y luego usar esos investigadores automatizados para resolver el problema de la eficiencia de muestra.

Esa estrategia abre una pregunta difícil. ¿Pueden sistemas que todavía no alcanzan eficiencia de aprendizaje humana resolver justamente los problemas científicos que separan a la IA actual de una inteligencia y un aprendizaje más parecidos a los humanos?

Patel no ofrece una respuesta definitiva. Dice que se trata de una cuestión compleja que requerirá un análisis mucho más largo en el futuro.

Lo que sí anticipa es una crítica a la forma en que suele imaginarse una “explosión de inteligencia”. A su juicio, el debate tiende a caer en dos extremos: o se descarta que la IA pueda acelerar el progreso en IA, o se asume que del otro lado emergerá algo casi divino.

Su propuesta es pensar con más cuidado en una fase donde el progreso se acelera de manera significativa, pero sobre la base concreta de los LLM y del tipo de inteligencia limitada y dependiente de datos que hoy representan. Esa visión no niega el avance, pero tampoco lo confunde con una réplica del aprendizaje humano.

En el fondo, la tesis presenta una advertencia para inversores, tecnólogos y empresas. La galaxia de capacidades visibles de la IA puede ser real, pero en su centro habría un agujero negro de datos tan inmenso que todavía define qué tan lejos estamos de una inteligencia verdaderamente eficiente.

ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.

Suscríbete a nuestro boletín

𝕏

Artículos Relacionados

IA

Detectores de imágenes IA sin entrenamiento fallan por detalles mínimos, advierte nuevo estudio

AltCoins

Bittensor (TAO) se desploma un 7% en medio de una corrección técnica: ¿oportunidad o trampa de valor?

Estados Unidos

Sanders propone fondo soberano de IA por USD $7 billones con participación pública del 50%

Hardware

Claude Opus 4.7 acelera tareas con robots y supera hasta 20 veces a equipos humanos

Publicidad

Las Top 10 Criptos (Volumen)

USDT	Tether USDt	0,03%	$53,63 mmd
BTC	Bitcoin	0,93%	$24,39 mmd
ETH	Ethereum	1,26%	$9,07 mmd
USDC	USDC	0,0%	$7,7 mmd
SOL	Solana	0,99%	$1,92 mmd
USD1	World Liberty Financial USD	0,05%	$1,6 mmd
XRP	XRP	-0,62%	$1,48 mmd
HYPE	Hyperliquid	5,03%	$0,950 776 mmd
BNB	BNB	0,52%	$0,916 132 mmd
WLD	Worldcoin	1,34%	$0,556 679 mmd

DiarioBitcoin.com

Criptos Ganadoras

AERO	Aerodrome Finance	12,4%	$0,488 876
BEAT	Audiera	10,09%	$1,87
ETC	Ethereum Classic	9,12%	$7,67
DEXE	DeXe	8,55%	$16,66
RENDER	Render	5,74%	$1,73
OKB	OKB	5,58%	$76,33
VIRTUAL	Virtuals Protocol	5,45%	$0,613 263
JTO	Jito	5,37%	$0,742 533
QNT	Quant	5,06%	$71,49
HYPE	Hyperliquid	5,03%	$70,35

DiarioBitcoin.com

Criptos Perdedoras

XLM	Stellar	-4,85%	$0,221 397
XMR	Monero	-4,72%	$309,42
H	Humanity	-4,34%	$0,221 565
SPX	SPX6900	-3,49%	$0,365 513
TAO	Bittensor	-3,11%	$224,61
CC	Canton	-2,87%	$0,154 741
ALGO	Algorand	-2,86%	$0,095 774
AVAX	Avalanche	-2,6%	$6,1
GRAM	Gram (prev. Toncoin)	-2,57%	$1,58
JST	JUST	-2,05%	$0,079 554

DiarioBitcoin.com