Por Canuto  

Un equipo de investigadores presentó una computadora probabilística programable de 1.000.000 de p-bits al conectar múltiples FPGAs en una sola máquina de Ising. El avance no solo apunta a escalar hardware para optimización e inferencia, sino que además identifica una regla práctica para medir cuándo la velocidad extra empieza a cobrarse en precisión.
***

  • El sistema alcanza más de 1 billón de flips por segundo y mantiene todos los pesos de acoplamiento en memoria local dentro de cada chip.
  • Los investigadores concluyen que el comportamiento de la máquina distribuida depende de una razón temporal clave: η = fcomm/fp-bit.
  • La plataforma fue demostrada en vidrios de espín, Max-Cut y satisfacibilidad booleana, con una versión de 18 FPGAs que llegó a 1.000.000 de p-bits.


La computación de alto rendimiento lleva años persiguiendo el mismo objetivo: usar muchos chips como si fueran una sola máquina más grande. Ese reto aparece en entrenamiento de IA, en procesadores cuánticos y también en las llamadas máquinas de Ising, diseñadas para muestrear o resolver problemas de optimización difíciles.

Ahora, un grupo de investigadores afirma haber dado un paso fuerte en esa dirección con una computadora probabilística programable de 1.000.000 de p-bits. Su propuesta conecta múltiples FPGAs para formar una sola máquina distribuida capaz de operar a una escala que, según los autores, supera el límite práctico de un solo chip.

El trabajo fue presentado por Navid Anjum Aadit, Xiuqi Zhang, Shuvro Chowdhury, Kevin Callahan-Coray, Kyle Lee, Saleh Bunaiyan, Sanjay Seshan, Clayton Thomas, Jason Twigg, Andrew Seawright, Forrest Brewer, Tathagata Srimani y Kerem Y. Camsari. En el estudio, titulado Programmable Probabilistic Computer with 1,000,000 p-bits, los autores describen tanto la arquitectura como las reglas que parecen gobernar su escalado.

La noticia resulta relevante para lectores que siguen IA, hardware especializado y computación no convencional. Aunque el paper no trata sobre criptomonedas, sí aborda un cuello de botella familiar para cualquier industria intensiva en cómputo: cómo aumentar capacidad y velocidad sin quedar atado al ancho de banda de memoria ni a la frontera física de un chip.

La tesis central del equipo es simple, pero importante. Una máquina probabilística distribuida puede comportarse como una no distribuida si la información entre fronteras de chip se actualiza lo bastante rápido, y ese umbral puede expresarse con una sola razón temporal.

Qué construyeron y por qué importa

La base del sistema son los p-bits, unidades estocásticas que fluctúan entre dos estados con una probabilidad ajustable. A diferencia de un bit clásico, que busca estabilidad, un p-bit está pensado para explorar configuraciones y servir como bloque de cómputo para muestreo de distribuciones de Boltzmann y optimización sobre modelos de Ising.

Los autores sostienen que los computadores probabilísticos basados en p-bits ya se habían propuesto como aceleradores de hardware para muestreo y optimización. Sin embargo, las implementaciones anteriores estaban limitadas a un solo chip, restringidas por capacidad y por el ancho de banda de memoria cuando los pesos de acoplamiento debían salir del circuito.

Su solución fue repartir el problema entre varias FPGAs, pero sin caer en el costo usual de mover grandes volúmenes de datos entre dispositivos. En lugar de intercambiar pesos completos, cada partición conserva sus acoplamientos en memoria local del chip y solo comparte estados de frontera de 1 bit con las particiones vecinas.

Esa decisión arquitectónica importa porque reduce el tráfico de comunicación a lo mínimo posible. Durante la ejecución, los dispositivos intercambian únicamente los estados binarios necesarios en los bordes del grafo particionado, mientras los pesos duplicados de corte quedan como “shadow weights” en ambos lados.

En términos prácticos, el resultado fue una máquina capaz de ejecutar muestreo de Gibbs a más de 1 billón de flips por segundo. Ese rendimiento se logró en una plataforma de 18 FPGAs, donde el sistema alcanzó el millón de p-bits mientras mantenía todos los pesos en memoria on-chip.

La regla clave: velocidad de comunicación contra velocidad local

Más allá del tamaño del sistema, el estudio quiso responder una pregunta más fundamental. Si una máquina estocástica se divide entre múltiples chips, ¿con qué frecuencia debe refrescarse la información de frontera para que el conjunto se comporte como si nunca hubiera sido particionado?

La respuesta que proponen gira en torno a η, definida como η = fcomm/fp-bit. Esa razón compara la frecuencia de intercambio de estados de frontera con la frecuencia local de actualización de los p-bits dentro de cada partición.

Si η es alta, la información de frontera llega fresca y la máquina distribuida se parece a una monolítica. Si η cae, las particiones siguen avanzando, pero consumen estados más “viejos”, lo que degrada de forma medible la calidad de la optimización.

Para estudiar ese efecto, el equipo usó vidrios de espín Edwards-Anderson en tres dimensiones, un benchmark clásico y duro para este tipo de hardware. Según los resultados, por encima de un umbral dependiente de la topología, la máquina distribuida iguala el comportamiento de una GPU monolítica tomada como referencia.

Por debajo de ese umbral, la energía residual sigue cayendo con una ley de potencia, pero con un exponente menor. En otras palabras, la máquina no deja de funcionar, aunque sí entra en una zona donde el paralelismo extra compra throughput al costo de precisión estadística y calidad de solución.

Dos plataformas, dos maneras de medir el costo de distribuir

El trabajo se apoyó en dos configuraciones complementarias. La primera, llamada DSIM-1, usa 6 FPGAs en cadena con relojes locales totalmente independientes y enlaces dúplex source-synchronous, lo que permitió ajustar η libremente.

La segunda, DSIM-2, se montó sobre una plataforma Siemens Veloce proFPGA CS con 18 FPGAs AMD VP1902 y un reloj maestro compartido. Esa versión permitió demostrar el escalado hasta 1.000.000 de p-bits, aunque allí fp-bit y fcomm no podían ajustarse de forma independiente.

En DSIM-1, los investigadores trabajaron con un sistema Edwards-Anderson de L3 = 37^3, equivalente a N = 50.653 p-bits. A un presupuesto fijo de 10^6 barridos Monte Carlo por corrida, variaron fp-bit a lo largo de un rango amplio y probaron varios valores de fcomm entre 1 kHz y 100 MHz.

Al graficar la energía residual final por espín frente a fp-bit, los resultados parecían depender de ambos relojes por separado. Pero al reexpresarlos contra η, las curvas colapsaron sobre una misma tendencia, lo que reforzó la idea de que la razón y no cada reloj individual es la variable relevante.

Ese colapso se saturó cerca de η ≈ 300 para ese sistema y ese mapeo particular. El valor coincidió con la predicción de una cota conservadora derivada por los autores, que incorpora el número de grupos de color del esquema de actualización y una métrica de congestión de frontera.

Qué pasa cuando la frontera se vuelve obsoleta

Los investigadores observaron que incluso con información de frontera desactualizada, la energía residual seguía decayendo casi como una ley de potencia. La diferencia estaba en la pendiente, resumida por un exponente κf que se reduce cuando η cae.

La referencia monolítica fue una GPU NVIDIA RTX 6000 Ada ejecutando las mismas instancias y el mismo calendario de recocido, pero sin partición. En ese marco, la GPU entregó κf ≈ 0,2693, mientras que un modo conservador de DSIM-1 a 0,10 MHz produjo κf ≈ 0,2637.

Los autores atribuyeron esa pequeña diferencia no al problema de frontera, sino a dos detalles de plataforma. En la FPGA usaron generadores LFSR y aritmética de punto fijo s{4}{1}, mientras la GPU corrió con Philox y punto flotante.

El contraste fuerte apareció al sobreacelerar DSIM-1 hasta 50 MHz. En ese escenario, el exponente cayó a κf ≈ 0,2289, señal de que la mayor velocidad efectiva ya estaba pagando un costo visible en calidad de solución por usar fronteras más viejas.

Para asegurarse de que la pérdida no viniera de fallos internos de actualización local, el equipo desconectó físicamente los enlaces entre FPGAs. Con cada partición trabajando sola, las energías locales se mantuvieron estables incluso a la frecuencia más alta probada, lo que apuntó a la frontera obsoleta como causa principal del deterioro.

El papel de la teoría y la relación con IA y hardware escalable

Para aislar el fenómeno de cualquier peculiaridad del hardware, el equipo desarrolló además un modelo teórico de cluster mean-field ejecutado sobre GPU. En ese esquema, cada clúster corre dinámicas Monte Carlo locales exactas y solo intercambia promedios de frontera cada S barridos internos.

Ese parámetro S funciona como un análogo algorítmico de η. Un S grande equivale a intercambios poco frecuentes y, por tanto, a fronteras más desactualizadas, mientras S pequeño reproduce la zona donde la máquina física refresca la información con suficiente rapidez.

El paper reporta que la teoría reprodujo cuantitativamente la misma conducta observada en el hardware. La caída tipo ley de potencia persistió en todo el rango, y el exponente volvió a saturarse hacia el límite exacto cuando los intercambios de frontera se hicieron lo bastante frecuentes.

Ese punto es importante porque sugiere que el tradeoff no es una rareza de la implementación con FPGAs. Más bien, sería una propiedad universal de dinámicas estocásticas particionadas, algo que podría modelarse en software antes de construir hardware dedicado.

Visto desde la industria de IA, el hallazgo conversa con un problema muy actual. Hoy los sistemas grandes se escalan con clusters de GPU, pero cada salto en tamaño exige más memoria local, más ancho de banda y redes más rápidas, de modo que una regla simple para cuantificar el costo de la desincronización resulta atractiva incluso fuera del nicho de Ising machines.

Del laboratorio a 1.000.000 de p-bits

La prueba de escala llegó con DSIM-2 y un sistema L3 = 100^3, es decir, N = 1.000.000 de p-bits. Para ello, el diseño no solo particionó entre FPGAs, sino también entre Super Logic Regions dentro de cada chip, lo que elevó el total a 72 subparticiones sobre 18 dispositivos.

El diseño cerró timing a fp-bit = 1 MHz y alcanzó una tasa medida de 10^12 flips por segundo. Al sobreacelerar la misma síntesis hasta 3 MHz, la plataforma llegó a 3 × 10^12 flips por segundo, aunque más allá de ese punto falló la sincronización de lectura y escritura entre las 18 FPGAs.

En consumo, DSIM-2 se movió entre 1,4 kW y 1,6 kW. La referencia GPU produjo κf ≈ 0,2836 y el modo conservador de DSIM-2 a 1 MHz entregó κf ≈ 0,2820, una diferencia que quedó dentro del intervalo de confianza de la curva GPU.

Eso permitió a los autores afirmar que una máquina distribuida de 1.000.000 de p-bits puede igualar el rendimiento de una referencia monolítica en ese benchmark, siempre que opere por encima del umbral adecuado de η. El modo a 3 MHz volvió a mostrar el mismo patrón de tradeoff y bajó el exponente a κf ≈ 0,2565.

En tiempo hasta objetivo, la historia fue mixta. El modo sobreacelerado resultó 2,82 veces más rápido para llegar a ρ⋆E = 0,05 y 2,23 veces más rápido para ρ⋆E = 0,01, pero los autores estimaron un cruce cerca de ρ⋆E ≈ 0,004, por debajo del cual conviene el modo conservador.

Más allá de vidrios de espín: Max-Cut, SAT y una posible ruta ASIC

La arquitectura no se quedó en redes cúbicas regulares. El equipo también la probó sobre G81, una instancia Max-Cut de 20.000 nodos de la biblioteca Gset, conocida por haber permanecido abierta durante años hasta que el algoritmo Cosm halló un corte de 14.060, luego certificado como óptimo.

Usando temperado paralelo adaptativo con movimientos de clúster isoenergéticos en DSIM-1, la máquina probabilística alcanzó el mismo óptimo certificado de 14.060. El estudio también reportó pruebas sobre grafos Pegasus P41 y Zephyr Z50, nativos de generaciones de recocedores cuánticos D-Wave, con 39.040 y 80.800 p-bits respectivamente.

El trabajo incluyó además una instancia aleatoria de 3SAT cerca de la transición de satisfacibilidad, con 13.042 variables y 55.558 cláusulas. Tras codificarla como un circuito Ising invertible, el sistema resultante llegó a 250.011 p-bits y alcanzó 55.416 cláusulas satisfechas de 55.558, equivalente a 99,74%, después de 10^9 barridos en DSIM-2.

Los autores también proyectaron una posible implementación ASIC en 7 nm para una partición representativa. Según sus números, una partición de 8.442 p-bits cerró timing a 100 MHz con un área de 0,66 mm2 y un consumo de 248 mW, aunque exigiría intercambio de frontera entre 6 GHz y 12 GHz para mantenerse en el régimen exacto.

En su conclusión, el equipo plantea que η y la cota derivada en el trabajo pueden usarse como ecuaciones de diseño para futuras computadoras probabilísticas distribuidas. Si esa idea se sostiene más allá de estos benchmarks, el aporte no será solo un récord de escala, sino una regla concreta para construir hardware estocástico grande a partir de piezas pequeñas.


Imagen original de DiarioBitcoin, creada con inteligencia artificial, de uso libre, licenciada bajo Dominio Público.

Este artículo fue escrito por un redactor de contenido de IA y revisado por un editor humano para garantizar calidad y precisión.


ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.

Suscríbete a nuestro boletín