Google lanza TabFM y promete predicción tabular zero-shot sin entrenamiento manual

𝕏

Hace 7 minutos

Por Canuto

Google presentó TabFM, un nuevo modelo fundacional para datos tabulares que busca eliminar parte del trabajo manual más tedioso del aprendizaje automático empresarial. La propuesta lleva el enfoque zero-shot a tareas de clasificación y regresión, y apunta a competir con herramientas clásicas como XGBoost mediante predicciones listas para usar sobre tablas no vistas.
***

Google Research anunció TabFM, un modelo zero-shot para clasificación y regresión sobre datos tabulares.
La arquitectura combina atención por filas y columnas, compresión de filas y aprendizaje en contexto para reducir costos computacionales.
La compañía planea integrar TabFM en BigQuery mediante el comando AI.PREDICT SQL, sin exigir experiencia previa en machine learning.

🚀 Google presenta TabFM, un nuevo modelo zero-shot para datos tabulares.

Elimina el entrenamiento manual en tareas de clasificación y regresión.

Integra capacidades avanzadas en BigQuery con el comando AI.PREDICT SQL.

Este modelo podría revolucionar la forma en que las… pic.twitter.com/auP9TjgY0z

— Diario฿itcoin (@DiarioBitcoin) July 1, 2026

Google Research presentó TabFM, un modelo fundacional para datos tabulares diseñado para ejecutar tareas de clasificación y regresión sin entrenamiento manual específico para cada nuevo conjunto de datos.

La iniciativa extiende al terreno tabular la lógica zero-shot que la empresa ya había aplicado a la predicción de series temporales con TimesFM, según explicó la publicación oficial del 30 de junio de 2026 firmada por Weihao Kong y Abhimanyu Das.

Los datos tabulares son una base crítica de la infraestructura empresarial moderna. Desde la predicción de abandono de clientes hasta la detección de fraude financiero, estas tablas alimentan una gran parte de los sistemas predictivos usados por compañías y organizaciones.

Durante años, ese terreno ha estado dominado por algoritmos supervisados basados en árboles de decisión como AdaBoost, XGBoost y los bosques aleatorios. Su fortaleza ha sido el rendimiento robusto sobre datos estructurados, pero con un costo operativo considerable.

Ese costo aparece en forma de horas de ajuste de hiperparámetros, validación y construcción de variables específicas del dominio. En la práctica, entrenar un modelo tabular sólido ha requerido trabajo experto y procesos repetitivos antes de llegar a una señal útil.

Un enfoque zero-shot para tablas empresariales

La apuesta de TabFM consiste en replantear la predicción tabular como un problema de aprendizaje en contexto. En vez de volver a entrenar un modelo para cada tarea nueva, el sistema intenta inferir directamente a partir del contexto que recibe durante la inferencia.

Ese paradigma se inspira en la evolución reciente de los modelos de lenguaje de gran escala. En esos sistemas, la predicción zero-shot permite abordar tareas nuevas a partir de instrucciones y ejemplos, sin modificar los pesos internos del modelo.

Aplicado a tablas, el método busca suprimir tres cuellos de botella clásicos. Google sostiene que TabFM elimina la necesidad de entrenamiento manual del modelo, de ajuste de hiperparámetros y de una ingeniería de características compleja.

La empresa afirma que el modelo puede generar predicciones de alta calidad sobre tablas no vistas en un solo paso hacia adelante. Esa característica lo vuelve especialmente atractiva para entornos donde el tiempo de despliegue importa tanto como la precisión.

Para el público de negocios y tecnología, el anuncio tiene una lectura clara. Si un sistema así funciona con consistencia, podría reducir de forma importante la fricción entre disponer de datos y convertirlos en decisiones operativas automatizadas.

Cómo funciona la arquitectura de TabFM

Según la explicación técnica, TabFM toma el conjunto de datos completo como un aviso unificado. Ese paquete incluye tanto los ejemplos históricos de entrenamiento como las filas objetivo sobre las que debe realizar predicciones.

El modelo aprende relaciones entre columnas y filas directamente desde ese contexto. La diferencia con un flujo tradicional es que no atraviesa una fase de ajuste específica para cada nueva tabla antes de producir resultados.

Ese cambio no es trivial porque las tablas no se comportan como el lenguaje natural. Un modelo de lenguaje procesa secuencias ordenadas de una dimensión, mientras una tabla es bidimensional y su significado no cambia si se intercambian filas o columnas.

Para responder a ese reto, TabFM combina elementos de arquitecturas previas como TabPFN y TabICL en un diseño híbrido. La intención es capturar la estructura tabular real sin disparar el costo computacional en inferencia.

El primer componente central es la atención alterna sobre filas y columnas. A través de un módulo multicapa, el sistema atiende de forma sucesiva a características y ejemplos para construir representaciones que capturen dependencias complejas de manera nativa.

Google plantea que este paso sustituye gran parte de la elaboración manual de variables que antes recaía sobre los científicos de datos. En otras palabras, el modelo intenta descubrir relaciones útiles dentro de la propia estructura de la tabla.

Luego entra la compresión de filas. Tras contextualizar la tabla, la información cruzada de cada fila se resume en una sola representación vectorial densa.

La etapa final utiliza un Transformer dedicado sobre esa secuencia de vectores comprimidos. Al aplicar atención sobre embeddings de fila y no sobre toda la cuadrícula sin comprimir, el sistema reduce de manera drástica el costo de cálculo.

Esa eficiencia es una pieza central del argumento del producto. Sin ella, un enfoque zero-shot tabular podría resultar demasiado pesado para conjuntos de datos grandes y para flujos empresariales de uso diario.

El papel de los datos sintéticos en el entrenamiento

Otro rasgo esencial de TabFM es que fue entrenado por completo con datos sintéticos a gran escala. La decisión responde a una carencia histórica del sector de machine learning tabular.

Los conjuntos de datos tabulares abiertos, diversos y de alta calidad son escasos. El problema se acentúa cuando se buscan tablas de gran tamaño que se parezcan a las que suelen circular en entornos industriales reales.

La razón es conocida en el mundo corporativo. Muchas tablas empresariales incluyen esquemas propietarios y datos sensibles, lo que limita su disponibilidad para procesos amplios de preentrenamiento.

Ante esa limitación, Google considera que las tablas sintéticas son la única vía viable para construir un modelo fundacional de este tipo a gran escala. Esas tablas pueden generarse en tamaños arbitrarios y con distribuciones variadas.

TabFM fue entrenado sobre cientos de millones de conjuntos de datos sintéticos. Esos datos se generaron dinámicamente mediante modelos causales estructurales, o SCMs, que incorporan una amplia variedad de funciones aleatorias.

La empresa sostiene que esa receta permite capturar una diversidad amplia de distribuciones y relaciones complejas entre variables. El objetivo es que el modelo luego generalice bien cuando se enfrenta a tablas reales no vistas.

Este punto merece atención porque toca una discusión más amplia en inteligencia artificial. El uso de datos sintéticos puede acelerar el desarrollo de modelos fundacionales, pero siempre deja abierta la pregunta sobre qué tan bien se traslada ese aprendizaje al mundo real.

En este caso, Google argumenta que la validación en benchmarks respalda esa generalización. La evidencia que ofrece se concentra en comparativas contra métodos tabulares ya establecidos en la industria.

Rendimiento frente a modelos tabulares establecidos

Para medir a TabFM, la compañía lo evaluó en TabArena, un sistema de evaluación vivo que calcula puntuaciones Elo a partir de enfrentamientos directos entre modelos. El marco de prueba incluyó 38 conjuntos de datos de clasificación y 13 de regresión.

Esos datasets variaban entre 700 y 150.000 muestras. Con ello, la evaluación intentó cubrir desde escenarios relativamente pequeños hasta tablas de escala más cercana a aplicaciones reales.

Google probó dos configuraciones distintas. La primera, llamada TabFM, corresponde a la versión lista para usar que genera predicciones en un solo paso hacia adelante, sin ajuste adicional ni validación cruzada.

La segunda variante fue TabFM-Ensemble. Ese modo incorpora características cruzadas y rasgos obtenidos mediante descomposición en valores singulares, además de calcular pesos óptimos para un ensamblaje de 32 trayectorias con un solucionador de cuadrados mínimos no negativos.

En clasificación, TabFM-Ensemble añade también escalado de Platt como mecanismo adicional de calibración. La publicación presenta gráficos de puntuaciones Elo donde ambas configuraciones aparecen entre los modelos de mejor rendimiento.

El texto concluye que el enfoque supera de forma consistente a algoritmos supervisados de referencia, incluso cuando estos han sido muy ajustados. Sin embargo, la publicación no detalla en ese resumen todos los valores por modelo, sino que remite a GitHub para resultados por pliegue y tasas de victoria cara a cara.

Para analistas y desarrolladores, ese matiz importa. El liderazgo en benchmarks puede depender de la configuración, del tipo de tabla y de la métrica elegida, por lo que la comparación detallada será clave para evaluar el alcance real de la ventaja.

Aun así, el mensaje de fondo es contundente. Google quiere posicionar a TabFM no solo como una curiosidad académica, sino como una herramienta práctica capaz de competir con el stack tradicional de machine learning tabular.

Impacto potencial en BigQuery y en la adopción empresarial de IA

Más allá del paper o del benchmark, el anuncio tiene una dimensión de producto clara. Google indicó que TabFM ya está disponible en sus repositorios de Hugging Face y GitHub, y que además será integrado directamente en BigQuery.

La integración prevista apunta a simplificar el uso para perfiles no especializados. En las próximas semanas, los usuarios podrán realizar clasificación y regresión avanzadas mediante un simple comando AI.PREDICT SQL en BigQuery.

Esa promesa toca una tendencia relevante en el mercado de inteligencia artificial. Los grandes proveedores de nube compiten por encapsular capacidades avanzadas en interfaces familiares para analistas, ingenieros de datos y equipos de negocio.

Si TabFM cumple lo que promete, podría reducir la dependencia de especialistas dedicados a calibrar modelos tabulares desde cero para cada caso. Eso no elimina la necesidad de gobernanza, limpieza de datos o validación humana, pero sí podría acortar el camino entre tabla e inferencia.

Para sectores como finanzas, comercio electrónico, seguros o ciberseguridad, la propuesta resulta especialmente relevante. Muchas de sus decisiones críticas siguen basándose en datos estructurados más que en texto, imagen o audio.

Desde esa perspectiva, TabFM refleja un cambio estratégico en la IA aplicada. Mientras gran parte de la conversación pública gira alrededor de chatbots y modelos generativos, aquí el foco vuelve a un terreno menos vistoso, pero central para la economía digital.

La publicación de Google Research también refuerza una idea de fondo. El paradigma de modelos fundacionales ya no se limita a lenguaje o visión, sino que se expande hacia dominios empresariales donde la automatización puede tener impacto directo sobre ingresos, riesgo y eficiencia.

El anuncio fue firmado junto a un equipo más amplio que incluye a Erez Louidor Ilan, Taman Narayan, Shuxin Nie, Rajat Sen, Yichen Zhou, Joe Toth, Deqing Fu y Samet Oymak. La compañía además agradeció a Kimberly Schwede por el diseño de los gráficos del proyecto.

Imagen original de DiarioBitcoin, creada con inteligencia artificial, de uso libre, licenciada bajo Dominio Público.

Este artículo fue escrito por un redactor de contenido de IA y revisado por un editor humano para garantizar calidad y precisión.

ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.

Suscríbete a nuestro boletín

𝕏

USDT	Tether USDt	0,06%	$68,97 mmd
BTC	Bitcoin	3,04%	$34,83 mmd
USDC	USDC	0,0%	$12,05 mmd
ETH	Ethereum	3,28%	$10,61 mmd
SOL	Solana	6,14%	$3,55 mmd
XRP	XRP	2,12%	$1,61 mmd
BNB	BNB	1,23%	$1,3 mmd
USD1	World Liberty Financial USD	0,03%	$1,05 mmd
DOGE	Dogecoin	3,39%	$0,643 522 mmd
TRX	TRON	0,78%	$0,577 185 mmd

M	MemeCore	95,26%	$1,28
VVV	Venice Token	14,99%	$14,47
JUP	Jupiter	14,2%	$0,236 495
MORPHO	Morpho	12,15%	$2,13
XLM	Stellar	10,26%	$0,199 725
SPX	SPX6900	7,62%	$0,360 965
ADA	Cardano	7,57%	$0,155 158
BCH	Bitcoin Cash	7,11%	$214,06
VIRTUAL	Virtuals Protocol	6,76%	$0,558 712
SOL	Solana	6,14%	$77,5

VELVET	Velvet	-11,67%	$1,43
STABLE	Stable	-11,43%	$0,034 128
LIT	Lighter	-9,26%	$1,76
PYTH	Pyth Network	-3,71%	$0,039 434
WLD	Worldcoin	-2,98%	$0,394 227
DEXE	DeXe	-2,05%	$22,68
SKY	Sky	-1,91%	$0,052 708
币安人生	币安人生	-1,07%	$0,677 731
SEI	Sei	-0,98%	$0,047 618
EURC	EURC	-0,16%	$1,13

Google lanza TabFM y promete predicción tabular zero-shot sin entrenamiento manual

Un enfoque zero-shot para tablas empresariales

Cómo funciona la arquitectura de TabFM

El papel de los datos sintéticos en el entrenamiento

Rendimiento frente a modelos tabulares establecidos

Impacto potencial en BigQuery y en la adopción empresarial de IA

Suscríbete a nuestro boletín

Artículos Relacionados

UFO y UAP: congresista Tim Burchett y Lou Elizondo elevan denuncias sobre ocultamiento en EE. UU.

Corte Suprema de EE. UU. pone freno a geofence warrants de Google por privacidad

Bitcoin reclama de nuevo los USD $60.000 tras señales de menor inflación desde la Fed

Informe de BPI vincula a PSL con bloqueo de USD $23.600 millones en infraestructura de IA en EE. UU.