Por Canuto  

La nueva carrera de la inteligencia artificial ya no se centra solo en entrenar modelos más grandes. En una conversación reciente, Jonathan Ross, fundador y CEO de Groq, argumentó que la verdadera batalla ahora está en la inferencia, la memoria y la capacidad de construir sistemas completos que sostengan una demanda creciente por inteligencia artificial cada vez más útil.
***

  • Jonathan Ross sostuvo que entrenamiento e inferencia son problemas distintos y que ambos requieren infraestructura completa, desde chips hasta energía.
  • El ejecutivo argumentó que la memoria es un cuello de botella importante, pero advirtió que si se encarece demasiado, la industria terminará resolviéndolo.
  • Ross también rechazó la idea de una saturación cercana en IA y defendió que la competencia y los grandes problemas sin resolver seguirán impulsando modelos más inteligentes.


La conversación sobre inteligencia artificial cambió de eje. Si durante los últimos años el foco estuvo en entrenar modelos cada vez más grandes, ahora una parte creciente de la industria presta atención a otro frente: la inferencia, es decir, el momento en que esos modelos ya entrenados responden consultas, ejecutan tareas o actúan como agentes dentro de productos reales.

En The Inference Revolution: Groq, Nvidia and the Future of AI, presentado por Sohn Conference Foundation, Jonathan Ross, chief software architect de Nvidia, fundador y CEO de Groq e inventor de la TPU de Google, expuso una visión amplia sobre la evolución del sector. Su tesis central fue que la economía de la IA no puede entenderse mirando solo una pieza del sistema.

Ross planteó que muchos observadores, en especial inversionistas, tienden a buscar un único cuello de botella en la cadena de valor. A su juicio, ese enfoque es incompleto. Según explicó, hacer funcionar la IA exige construir chips, empaquetado, sistemas, redes, centros de datos, servidores, racks, suministro eléctrico y software, además de resolver por separado los desafíos de entrenamiento e inferencia.

Para explicar esa diferencia, comparó el avance actual de la IA con la carrera espacial. Dijo que llevar personas a la Luna y aterrizar en ella fueron problemas distintos, del mismo modo que entrenar un modelo y ponerlo a producir respuestas a escala también lo son. En su visión, ambos requieren tecnologías de frontera y no admiten simplificaciones.

La inferencia gana peso dentro de la economía de la IA

Ross recordó que hasta hace pocos años ni siquiera era común discutir la inferencia fuera de círculos técnicos. Hoy, en cambio, la considera posiblemente el elemento más importante de la inteligencia artificial aplicada. Esa transición refleja un cambio práctico: ya no basta con demostrar que un modelo puede aprender, ahora importa cuánto cuesta usarlo, qué tan rápido responde y cuánta infraestructura demanda.

En ese punto también surgió una idea relevante para empresas y desarrolladores. El entrevistador planteó que la portabilidad entre arquitecturas se está reduciendo y que migrar cargas de trabajo ya no es solo una molestia de ingeniería, sino un posible lastre económico. Ross no lo negó y, en cambio, reforzó la idea de que cada capa técnica tiene costos y restricciones que impactan directamente en la rentabilidad.

Según su lectura, la industria opera con cuellos de botella cambiantes. Cuando una limitación aún no es crítica, algunos proveedores pueden cobrar mucho por resolverla. Pero si ese problema crece demasiado, surgen incentivos poderosos para atacarlo. Por eso, dijo, no tiene sentido asumir que una restricción específica dominará para siempre el mercado.

Esa lógica le sirve tanto a fabricantes de hardware como a operadores de centros de datos y desarrolladores de modelos. En lugar de pensar en un monopolio permanente del problema más visible del momento, Ross sugirió que la IA se mueve como una secuencia de restricciones temporales que van siendo abatidas a medida que el mercado y la ingeniería reaccionan.

Memoria cara, presión técnica y la posibilidad de una solución

Uno de los puntos más interesantes de la conversación fue la memoria, hoy considerada por muchos como el gran cuello de botella de la IA. El entrevistador observó que se ha convertido en el tema dominante del momento y preguntó si una memoria cada vez más costosa y escasa terminará siendo resuelta por la propia dinámica del sector.

Ross respondió que sí. Explicó que la memoria fue históricamente una de las áreas más comoditizadas del negocio de semiconductores, pero que las condiciones actuales cambiaron su papel. Para ilustrarlo, recurrió a dos conceptos económicos: bienes Veblen y bienes Giffen. Los primeros aumentan su atractivo a medida que sube el precio, como ocurre con ciertos lujos. Los segundos, como ejemplificó con el arroz, pueden absorber más gasto cuando se encarecen porque siguen siendo esenciales.

Su punto fue que la memoria, si se transforma en un insumo demasiado caro y crítico, termina atrayendo una reacción tecnológica. En otras palabras, si el costo sube demasiado, más ingenieros y más capital irán a resolver ese problema. Esa atención tiene un costo de oportunidad, porque esos equipos podrían haber trabajado en otra cosa si la memoria no fuera tan limitante.

Ross añadió que cuando un obstáculo técnico se vuelve el “tallo más alto”, termina siendo cortado. Bajo esa lógica, no solo crecería la inversión en nuevas plantas o capacidad fabril, sino también en eficiencias algorítmicas. El entrevistador citó como ejemplo la compresión del KV cache en un lanzamiento reciente de DeepSeek, que según comentó alcanzó 90%. Aun con discusiones sobre la paradoja de Jevons, Ross insistió en que hacer de la memoria un problema demasiado grande acelera el esfuerzo por superarlo.

¿Tiene techo la inteligencia artificial?

Otra parte central del diálogo giró en torno a una pregunta que divide a tecnólogos e inversionistas: si la inteligencia de los modelos tendrá rendimientos decrecientes hasta un punto en el que ya no importe seguir mejorándolos. El entrevistador sostuvo que, por encima de cierto nivel, quizá más allá del estándar de un doctorado, los humanos podrían dejar de percibir diferencias relevantes entre modelos rivales.

Ese razonamiento se conecta con el avance de los modelos abiertos frente a los sistemas cerrados. Según se expuso en la charla, el ecosistema open-weight estaría alrededor de seis meses por detrás de los laboratorios de modelos cerrados. Si además existieran rendimientos decrecientes claros, entonces los sistemas abiertos podrían terminar alcanzando a los cerrados con el tiempo.

Ross no compartió ese diagnóstico. Señaló que hay bienes en la economía cuyo valor cae cuando se produce más, pero que la inteligencia no encaja en esa categoría. A su juicio, no existe una manera real de saciar el apetito por inteligencia, porque siempre habrá nuevos usos, nuevos problemas y nuevos contextos competitivos que premien capacidades superiores.

Para defender esa idea, recurrió a dos argumentos. El primero fue práctico: mientras enfermedades como el cáncer no estén curadas, mientras la gente siga muriendo de vejez y mientras aún no exista suficiente cómputo para correr ciertos modelos, no puede decirse que la humanidad tenga “inteligencia suficiente”. El segundo fue más económico: incluso si las personas no pudieran distinguir directamente cuál IA es mejor, sí notarían diferencias en resultados, productividad y retornos.

Ross puso un ejemplo personal. Comentó que volvió a programar y que usa múltiples modelos, porque cada uno es mejor en tareas distintas. En su visión, esa especialización no implica estancamiento, sino una competencia permanente en la que los sistemas más capaces seguirán capturando demanda, incluso cuando el usuario no pueda verbalizar exactamente por qué uno supera a otro.

Agentes de IA, productividad y una nueva capa de competencia

En ese contexto apareció el concepto de IA agentic. Ross lo describió de forma sencilla: si una persona mejora su productividad usando IA, también la propia IA puede mejorar la suya recurriendo a otras IA. Es decir, un sistema puede delegar subtareas a otro modelo y aprovechar capacidades complementarias, igual que haría un usuario humano.

Esa dinámica implica que las mejores herramientas no solo compiten por usuarios finales, sino también por convertirse en herramientas preferidas de otras IA. Ross sugirió que un sistema inteligente reconocerá cuándo otro sistema es más competente para una función determinada y tenderá a utilizarlo. Eso empuja una capa adicional de competencia en el mercado.

Como anécdota, comentó un estudio sobre currículums generados por distintos modelos de lenguaje. Según relató, un mismo LLM tendía a preferir los currículums generados por ese propio LLM frente a los producidos por otros. En un mercado donde reclutadores ya usan modelos para filtrar candidatos, esa observación abre interrogantes curiosos sobre sesgo algorítmico y optimización de contenido para máquinas.

Aunque lo expuso con tono informal, el fondo del argumento es serio. Si más decisiones operativas, laborales y financieras empiezan a pasar por sistemas automatizados, entonces la carrera por tener la IA “correcta” ya no dependerá solo de impresiones humanas. También dependerá de cómo los modelos interactúan, se evalúan y se recomiendan entre sí.

De la intuición a la sentiencia como proceso social

Ross también propuso una explicación sobre por qué no espera una saturación cercana de la inteligencia artificial. Retomó la distinción entre pensamiento rápido e intuitivo y pensamiento lento y deliberativo, popularizada por Daniel Kahneman. Dijo que la IA ya es muy fuerte en intuición, incluso más que los humanos en muchos casos, porque se entrena con volúmenes de datos imposibles para una persona.

Para ilustrarlo, citó el caso de los vehículos autónomos de Waymo. Sostuvo que la cantidad de experiencia que esos sistemas pueden recolectar en un solo día se acerca, o al menos se dirige, hacia una escala comparable con la experiencia de conducción de toda una vida humana. Eso hace que situaciones raras dejen de ser raras para el modelo, que puede haberlas visto varias veces.

Además, afirmó que el entrenamiento cambió de naturaleza. Antes, los modelos aprendían principalmente de datos producidos por humanos. Ahora, según explicó, también generan datos que luego se filtran, seleccionan y reutilizan para entrenar modelos mejores. Describió ese proceso como una escalera de capacidad: el modelo produce información de cierto nivel, se queda con la mejor parte, entrena de nuevo y sube un peldaño.

Desde esa perspectiva, Ross dijo que las mejoras actuales parecen avanzar de forma bastante lineal. Por eso no ve motivos para asumir que los modelos dejarán de volverse más inteligentes en el corto plazo. Incluso si dos sistemas muy avanzados parecen similares para un observador humano, uno puede ser materialmente superior en contextos de competencia o resolución de problemas complejos.

La parte más filosófica de la charla apareció cuando definió la sentiencia. Ross propuso entender la inteligencia como capacidad para predecir o influir en un resultado, mientras que la sentiencia sería la tasa de mejora de esa inteligencia. No como un estado binario, sino como un gradiente: no se trata de ser o no ser sentiente, sino de cuánto aumenta la capacidad de aprender y mejorar.

Luego fue más lejos y vinculó la sentiencia con la civilización. A su juicio, el lenguaje no solo permite pensar, sino transferir información entre individuos. En esa lógica, la inteligencia puede ser una propiedad del individuo, pero la sentiencia emerge como propiedad de una sociedad capaz de acumular, destilar y compartir conocimiento. La IA, dijo, acelera ese bucle de retroalimentación: produce inteligencia, vuelve más capaces a las personas, y esas personas interactúan mejor con la IA.

Su conclusión fue que ese ciclo podría hacer que las nuevas generaciones resulten significativamente más inteligentes que las anteriores, del mismo modo que internet ya alteró la base cognitiva de quienes crecieron con acceso permanente a información. Más allá del debate filosófico, la implicación económica es clara: si la inteligencia sigue escalando y su utilidad también, la revolución de la inferencia apenas estaría comenzando.


Imagen original de DiarioBitcoin, creada con inteligencia artificial, de uso libre, licenciada bajo Dominio Público.

Este artículo fue escrito por un redactor de contenido de IA y revisado por un editor humano para garantizar calidad y precisión.


ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.

Suscríbete a nuestro boletín