Un análisis de Nate B Jones en YouTube plantea que Google lanzó Gemini 3.1 Pro como el “razonador” más fuerte a escala y a precio de piso, no para ganar el uso diario frente a Claude o ChatGPT, sino para empujar la frontera de la inteligencia y capitalizar una ventaja vertical que va desde TPUs hasta DeepMind.
***
- Gemini 3.1 Pro lidera 13 de 16 benchmarks y, según la fuente, duplicó su desempeño en ARC AGI2 en apenas 90 días, una señal de aceleración en razonamiento puro.
- Google lo ofrece a USD $2 por millón de tokens de entrada y USD $12 por millón de tokens de salida, con niveles configurables de “thinking” y descuentos adicionales con context caching.
- La fuente sostiene que el debate ya no es “qué IA usar”, sino “qué IA usar para cada tipo de problema”, separando razonamiento, esfuerzo, coordinación, ambigüedad y otras dificultades.
Google acaba de lanzar lo que Nate B Jones describe como “el modelo de IA más inteligente del planeta”: Gemini 3.1 Pro. De acuerdo con esa fuente, el modelo destaca por su rendimiento en 13 de 16 benchmarks y por su foco en razonamiento puro, además de un precio que sería cerca de una séptima parte del costo de competidores como Opus 4.6. El punto central, sin embargo, no está en la tabla de resultados, sino en la señal estratégica que implicaría.
La pieza plantea una pregunta incómoda para el mercado: ¿por qué Google, una de las empresas más ricas del sector, construiría un motor de razonamiento líder, lo colocaría con “precio de piso” y se mostraría cómoda aunque muchos usuarios sigan usando Claude o ChatGPT en su trabajo diario? Según el argumento del video, la respuesta es que Google estaría jugando un juego distinto al de los demás laboratorios y compañías de IA, uno que prioriza “resolver la inteligencia” antes que optimizar productos y monetización inmediata.
Este enfoque importa para lectores de mercados y tecnología porque sugiere un reordenamiento de incentivos en el ecosistema. Si un actor con flujo de caja masivo puede lanzar modelos punteros sin depender de ganar cada usuario final, el resto de la industria queda presionada a competir en precio, especialización o distribución. A la vez, cambia cómo equipos de negocio, desarrolladores y analistas deben evaluar qué modelo usar, y para qué tareas.
El benchmark que la fuente considera clave: ARC AGI2 y el salto en 90 días
De los 16 benchmarks mencionados, Nate B Jones se detiene en uno: ARC AGI2. Lo presenta como una prueba que busca medir si un modelo puede resolver problemas lógicos que nunca ha visto, más allá de “pattern matching” o recuperación de ejemplos memorizados. En ese marco, el indicador se interpreta como una señal de razonamiento genuinamente novedoso a partir de primeros principios.
Según la fuente, Gemini 3 Pro, lanzado en noviembre, obtuvo 31,1% en ARC AGI2. Apenas 90 días después, Gemini 3.1 Pro habría alcanzado 77,1%. El video afirma que el salto de 46 puntos porcentuales sería la mayor ganancia de razonamiento de una sola generación dentro de una familia de modelos frontera.
En la comparación citada, Opus 4.6 habría logrado 68,8% en el mismo benchmark, “muy cerca”, mientras que GPT 5.2 habría puntuado “un poco más bajo”. En el resto de mediciones, el video menciona resultados sólidos en GPQA Diamond, descrito como un benchmark científico que ya luce “saturado”, y un desempeño fuerte en Live Codebench Pro, enfocado en programación.
Aun así, Nate insiste en que los números no son el verdadero tema. El argumento es que Google habría optimizado deliberadamente para “pensar más duro”, no para “codificar más tiempo” ni para coordinar grandes enjambres de agentes durante semanas. Esa decisión de diseño, según el video, expone una apuesta corporativa: priorizar inteligencia como fin, no como medio para un producto específico.
Razonador “desnudo” vs razonador “equipado”: la comparación con Opus y GPT
La fuente dibuja un mapa de especializaciones. Sostiene que Anthropic habría construido Opus 4.6 para trabajo agentivo: ciclos largos, coordinación de herramientas, y operación sostenida sobre bases de código y tareas complejas. También afirma que OpenAI habría orientado “Codex 5.3” hacia pipelines de programación especializados, con “sandboxes” autoajustables y un rendimiento de “mil tokens por segundo” al máximo.
En contraste, Nate afirma que Gemini 3.1 Pro no se diseñó como “coding agent” ni como “agent manager”, aunque pueda programar y coordinar. Lo presenta como el “razonador puro” más fuerte disponible a escala, y remarca un posicionamiento de costos: USD $2 por millón de tokens de entrada y USD $12 por millón de tokens de salida.
El video ilustra el impacto presupuestario con un ejemplo: para una carga de trabajo de 1.000 millones de tokens al mes, el diferencial sería la diferencia entre una factura de USD $15.000 y otra de USD $2.000. Además, menciona que con “context caching” los costos de Gemini podrían caer otro 75%.
También se cita a terceros para respaldar la eficiencia: el director de IA de JetBrains lo habría calificado como “más fuerte, más rápido y más eficiente”. Jones añade que Artificial Analysis lo ubica como el modelo número uno en su “intelligence index”, a un costo aproximado de la mitad frente a sus pares frontera más cercanos.
Herramientas y mundo real: dónde la fuente dice que Opus alcanza o supera a Gemini
El análisis introduce una distinción crítica: cuando se miden tareas del mundo real que exigen herramientas, la ventaja puede moverse. Nate B Jones sostiene que, al dar a los modelos acceso a web search, ejecución de código, bases de datos y sistemas de archivos, Opus 4.6 “alcanza” y a menudo “toma la delantera”.
En “Humanity’s Last Exam” con búsqueda y herramientas de código, la fuente reporta Opus con 53,1% frente a 51,4% de Gemini. En “GDP val”, descrito como un medidor de tareas expertas de oficina y finanzas, Opus lideraría por 289 puntos ELO, un margen que el video califica como “masivo”.
Nate B Jones agrega que en el “arena coding leaderboard” y en rankings de preferencia humana experta, los modelos Claude ganan de forma consistente. La síntesis del video usa una metáfora: si la inteligencia es el motor, las herramientas son el tren motriz. Según esa visión, Google habría construido un motor mejor, Anthropic habría construido un auto mejor y OpenAI una transmisión de carreras para tareas específicas.
De ahí sale una conclusión práctica: el dilema no sería “qué modelo es más inteligente”, sino si el cuello de botella de una tarea es el pensamiento puro o la capacidad de actuar con herramientas durante horas o días. Esa pregunta, según el video, explicaría por qué Gemini puede dominar en razonamiento y aun así no ser la opción preferida para flujos cotidianos de trabajo con herramientas.
La apuesta de Google: flujo de caja, TPUs y una integración vertical difícil de replicar
Nate B Jones insiste en que Google puede permitirse esa estrategia por su estructura financiera. Afirma que la empresa genera más de USD $100.000.000.000 en free cash flow anual, proveniente de Search, YouTube y Cloud. También menciona que planea USD $93.000.000.000 en capex este año, “y la mayor parte es IA”.
En ese marco, el video sostiene que Google no necesitaría monetizar Gemini con la urgencia de otros. Incluso menciona que, cuando se consultó a Demis Hassabis sobre anuncios en ChatGPT en Davos, él habría dicho que le sorprendió la rapidez del movimiento hacia publicidad. La idea subyacente sería que Google ya monetiza búsqueda y no depende de anuncios dentro de Gemini.
La segunda pieza del argumento es la infraestructura. Google diseña su propio silicon, y menciona el TPU “Ironwood” de séptima generación, anunciado este año. Según el video, ofrecería 10 veces el cómputo de la generación anterior y cerca de la mitad del costo energético por operación, además de poder enlazar 9.216 chips en un solo pod.
La fuente agrega que Anthropic habría firmado un acuerdo para usar 1.000.000 de TPUs bajo un arreglo multianual valuado en “decenas de miles de millones de dólares”, y que Meta estaría negociando un compromiso similar. Con ese dato, el video concluye que, si competidores entrenan modelos frontera en hardware de Google, la empresa construyó más que un foso: una fortaleza.
Deep Think e investigación: del razonamiento a matemáticas, criptografía y proteínas
Para mostrar el tipo de problemas que Google estaría priorizando, Nate menciona “Gemini 3 Deep Think”, un modo especializado de razonamiento liberado el 12 de febrero, ubicado por encima de 3.1 Pro en la curva de inteligencia. Según el video, Deep Think colaboró con investigadores humanos para resolver 18 problemas previamente no resueltos en matemáticas, física, ciencias de la computación y economía.
Uno de los ejemplos citados es una conjetura en “online submodular optimization” que habría permanecido sin prueba desde 2015. El video afirma que Deep Think generó un contraejemplo combinatorio preciso de tres ítems y probó falsa la conjetura en una sola ejecución.
También se menciona el problema “max cut”, donde el modelo habría usado teoremas y herramientas de matemáticas continuas para resolver un rompecabezas algorítmico discreto, cruzando fronteras disciplinares que humanos rara vez cruzan. Además, Nate B Jones dice que el sistema abordó temas de física, detectó un error crítico en un paper de criptografía y trabajó en optimización de crecimiento de cristales.
Por otro lado, el video indica que, dos días antes de que 3.1 Pro se lanzara, Isomorphic Labs, descrita como el spin-off de descubrimiento de fármacos de DeepMind, publicó resultados donde su motor de diseño de fármacos habría duplicado la precisión de AlphaFold 3 en las tareas de predicción de proteínas más difíciles. Según la Nate, también superó métodos físicos estándar a una fracción del costo y el tiempo.
La tesis laboral: no todo lo “difícil” es razonamiento, y elegir IA depende del tipo de problema
La parte final del video cambia el foco desde la competencia entre modelos hacia la naturaleza del trabajo. Nate propone separar distintos tipos de dificultad: problemas de razonamiento, de esfuerzo, de coordinación, de inteligencia emocional, de juicio y fuerza de voluntad, de expertise por experiencia, y de ambigüedad. La idea es que cada eje se automatiza con herramientas distintas y en plazos diferentes.
Según el argumento, Gemini 3.1 Pro ayudaría sobre todo en la fracción del trabajo que depende de razonamiento profundo, como optimización fiscal multijurisdiccional, pricing de derivados complejos o compliance regulatorio novedoso. Sin embargo, la mayoría de tareas diarias en empresas serían más bien de esfuerzo y coordinación, donde modelos agentivos y uso de herramientas pueden aportar más que el razonamiento “desnudo”.
El video concluye con tres recomendaciones prácticas. La primera: dejar de mirar benchmarks y mapear “tracción” por dominio, entendida como qué modelo resuelve con mayor confiabilidad tareas específicas del flujo de trabajo real. La segunda: descomponer el trabajo por dimensiones de dificultad para saber qué se automatiza y qué no. La tercera: construir “gusto” o criterio para evaluar la calidad de la salida de IA en el propio campo, porque los modelos producen resultados plausibles que requieren validación experta.
En síntesis, Nate B Jones plantea que Google puede ser paciente: no necesita ganar el “product race” de uso diario si su apuesta es empujar la frontera de la inteligencia. Bajo esa lectura, Gemini 3.1 Pro sería un marcador de ruta, con una combinación de razonamiento fuerte, escala y precio agresivo, sostenida por una integración vertical que va de TPUs a DeepMind. Y el cambio para usuarios no sería migrar a un único chatbot, sino aprender a enrutar problemas al modelo adecuado.
Imagen original de DiarioBitcoin, creada con inteligencia artificial, de uso libre, licenciada bajo Dominio Público.
Este artículo fue escrito por un redactor de contenido de IA y revisado por un editor humano para garantizar calidad y precisión.
ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.
Suscríbete a nuestro boletín
Artículos Relacionados
Bitmine refuerza su tesoro Ethereum con USD $98 millones más en medio de pérdidas millonarias
OpenAI refuerza alianza con BCG, McKinsey, Accenture y Capgemini para llevar la IA a escala empresarial
Stargate se atasca: el megaproyecto de centros de datos de $500mil millones choca por disputas entre OpenAI, Oracle y SoftBank