Por Angel Di Matteo   𝕏 @shadowargel

Guide Labs, startup de San Francisco, presentó Steerling-8B, un LLM open source de 8.000 millones de parámetros que busca resolver el gran dolor de la IA moderna: entender por qué un modelo responde como responde. Su arquitectura incorpora una “capa de conceptos” para rastrear cada token hasta los datos de entrenamiento, con la promesa de más control para usos en consumo, finanzas, ciencia y sectores regulados.

***

  • Steerling-8B es un LLM open source de 8.000 millones de parámetros que permite rastrear cada token hasta sus orígenes en los datos de entrenamiento.
  • Guide Labs afirma que su enfoque requiere más anotación inicial.
  • Sin embargo, el modelo terminará facilitando la trazabilidad y el control, con potencial para moderación, cumplimiento y auditoría en industrias reguladas.
  • La empresa, salida de Y Combinator, levantó una semilla de USD $9 millones con Initialized Capital en noviembre de 2024 y planea un modelo más grande y una API.

 

Entender por qué un modelo de inteligencia artificial toma una decisión o genera una frase concreta se ha convertido en uno de los mayores retos de los sistemas modernos de aprendizaje profundo. Los usuarios ven el resultado, pero rara vez tienen acceso a una explicación verificable sobre el origen de lo que el modelo “cree” o “infirió”. Ese vacío ha alimentado controversias frecuentes, desde respuestas impredecibles hasta sesgos difíciles de detectar y corregir.

Según informó TechCrunch, la startup de San Francisco Guide Labs busca atacar ese problema de raíz con el lanzamiento de un nuevo modelo de lenguaje. Este lunes, la compañía presentó Steerling-8B, un LLM de 8.000 millones de parámetros y de código abierto, entrenado con una arquitectura diseñada para que sus acciones sean interpretables. La promesa central es ambiciosa: que cada token producido por el modelo pueda rastrearse hasta sus orígenes en los datos de entrenamiento.

En la práctica, esa trazabilidad podría ir desde identificar materiales de referencia para hechos citados por el modelo, hasta analizar cómo “entiende” aspectos complejos como el humor o el género. Para un público que sigue de cerca IA, mercados y cripto, este tipo de transparencia también abre un ángulo relevante. Si un modelo se usa en productos financieros, trading algorítmico o análisis de riesgo, la capacidad de explicar salidas reduce incertidumbre operativa y facilita auditorías.

¿Qué es Steerling-8B y por qué Guide Labs dice que es interpretable?

Guide Labs fue fundada por su CEO, Julius Adebayo, y su directora científica, Aya Abdelsalam Ismail. La empresa sostiene que el problema no es solo depurar un fallo puntual, sino lidiar con redes neuronales de miles de millones de parámetros donde la causalidad se vuelve opaca. TechCrunch enmarcó ese desafío con ejemplos conocidos, como los intentos de xAI por ajustar la política de Grok, la tendencia de ChatGPT a la adulación, o las alucinaciones comunes en modelos de lenguaje.

La propuesta de Guide Labs consiste en diseñar el modelo para que sea interpretable desde el inicio, en lugar de aplicar herramientas posteriores de “neurociencia sobre el modelo”. Adebayo lo describió a TechCrunch como un giro de enfoque: “El tipo de interpretabilidad que la gente hace es… neurociencia en un modelo, y le damos la vuelta. Lo que hacemos es realmente diseñar el modelo desde cero para que no necesites hacer neurociencia”.

El mecanismo clave, de acuerdo con el reporte, es la inserción de una capa de concepto en el modelo, que clasifica datos en categorías rastreables. Ese diseño, explicó la fuente, requiere más anotación de datos por adelantado. Sin embargo, Guide Labs indica que pudo apoyarse en otros modelos de IA para ayudar en esa etapa y entrenar su mayor prueba de concepto hasta ahora.

La discusión no es solo técnica, también es social y regulatoria. Un modelo que “explica” de dónde salen sus respuestas puede facilitar decisiones sobre qué fuentes se permiten y cuáles se bloquean. Además, ofrece una ruta para auditar si el sistema está usando señales no deseadas en su razonamiento, un tema que ha ganado peso en debates sobre sesgo algorítmico y cumplimiento normativo.

De MIT a una nueva arquitectura: el trasfondo del equipo

TechCrunch señaló que Adebayo comenzó este trabajo durante su doctorado en el MIT. En 2020, coescribió un artículo influyente que mostraba que los métodos existentes para comprender modelos de aprendizaje profundo no eran confiables. Ese antecedente, según el medio, terminó siendo una pieza que impulsó la creación de una nueva manera de construir LLMs, con interpretabilidad inherente en su arquitectura.

El problema que Adebayo expuso con un ejemplo es la fragilidad de intentar aislar conceptos complejos en modelos actuales. En conversación con TechCrunch, afirmó: “Si tengo un billón de formas de codificar el género, y lo codifico en 1,000 millones de las 1,000 millones de cosas que tengo, tienes que asegurarte de encontrar todas esas 1,000 millones de cosas que he codificado, y luego debes ser capaz de activarlas y desactivarlas de manera confiable. Puedes hacerlo con los modelos actuales, pero es muy frágil… Es una de las preguntas del santo grial”.

La idea de “activar y desactivar” conceptos importa para ámbitos donde la explicabilidad se convierte en obligación. En finanzas, por ejemplo, un modelo que evalúa a solicitantes de préstamos debe tomar en cuenta variables permitidas, pero excluir otras. La fuente citó explícitamente un caso: considerar registros financieros, pero no la raza. En un entorno de cumplimiento y auditoría, esa separación no puede depender de suposiciones.

Para lectores que siguen criptomonedas y mercados, es útil pensar en la analogía con sistemas de transparencia y trazabilidad que se buscan en Blockchain. Sin afirmar equivalencias técnicas, la motivación se parece: reducir la caja negra y mejorar la rendición de cuentas. En IA, sin embargo, la trazabilidad no se resuelve con un libro contable, sino con diseño de arquitectura y datos.

¿Se pierde la “magia” de los comportamientos emergentes?

Un temor razonable ante un enfoque más “estructurado” es que la interpretabilidad limite comportamientos emergentes. TechCrunch planteó la preocupación de que esta arquitectura podría eliminar parte de lo que vuelve interesantes a los LLMs, en particular su capacidad para generalizar de maneras nuevas sobre temas no entrenados explícitamente. Ese debate es recurrente en IA: más control puede significar menos sorpresa, pero también menos riesgo.

Adebayo, según el medio, sostuvo que la generalización todavía ocurre en el modelo de su empresa. El equipo, afirmó, rastrea lo que denominan “conceptos descubiertos”, es decir, conceptos que el propio modelo habría identificado por cuenta propia. TechCrunch citó como ejemplo la computación cuántica.

Esta afirmación apunta a un equilibrio: mantener capacidad de aprendizaje y, a la vez, hacer visibles las rutas internas que llevan a una salida. Si ese balance funciona en la práctica, podría cambiar cómo se construyen modelos para producción en entornos sensibles. En productos de consumo, por ejemplo, un proveedor podría necesitar control fino sin perder utilidad general.

El debate también toca un aspecto económico. En un mercado donde los modelos de frontera suelen crecer en tamaño y costo, la interpretabilidad podría convertirse en un diferenciador. No solo por seguridad, sino por eficiencia operacional: entender fallos y corregirlos más rápido reduce costos y riesgos en despliegues reales.

Casos de uso: copyright, moderación, finanzas y ciencia

Adebayo considera que esta arquitectura interpretable será algo que “todos necesitarán”. En LLMs orientados al consumidor, estas técnicas podrían habilitar a los constructores para bloquear el uso de materiales con derechos de autor. También permitirían un mejor control de salidas relacionadas con temas delicados, como violencia o abuso de drogas, siempre según la descripción recogida por el medio.

En industrias reguladas, la necesidad sería aún más directa. TechCrunch mencionó específicamente el sector financiero y el ejemplo del otorgamiento de préstamos, donde el modelo debe estar limitado a variables relevantes y permitidas. En este punto, la interpretabilidad no se presenta como una función opcional, sino como un requisito para operar con gobernanza y evitar decisiones discriminatorias.

La nota también remarcó un frente adicional: el trabajo científico. Guide Labs ha desarrollado tecnología para esta área, y el medio recordó que el plegamiento de proteínas ha sido uno de los grandes éxitos de los modelos de aprendizaje profundo. Aun así, los científicos a menudo necesitan más información sobre por qué el software encontró combinaciones exitosas, para convertir resultados en conocimiento verificable.

Este enfoque se alinea con una demanda creciente en investigación: modelos que no solo “aciertan”, sino que entreguen razones comprensibles para validar hipótesis. En ciencias y finanzas, el costo de una explicación insuficiente puede ser alto. Por eso, un diseño que priorice trazabilidad desde el entrenamiento intenta cubrir un vacío que las técnicas de explicación a posteriori no siempre resuelven.

Rendimiento, datos y el plan comercial de Guide Labs

Guide Labs afirmó que Steerling-8B puede alcanzar el 90% de la capacidad de modelos existentes, mientras usa menos datos de entrenamiento gracias a su arquitectura. El medio también citó una declaración de Adebayo: “Este modelo demuestra que el entrenamiento de modelos interpretables ya no es una especie de ciencia; ahora es un problema de ingeniería”. En esa misma línea, sostuvo que ya “descubrieron la ciencia” y que pueden escalarla.

Adebayo agregó que “no hay razón por la cual este tipo no igualaría el rendimiento de los modelos de nivel frontera”, a pesar de que estos últimos cuentan con muchos más parámetros. Esa es una afirmación fuerte en un ecosistema donde el tamaño del modelo suele correlacionar con resultados, aunque no siempre de forma lineal.

En cuanto a la empresa, TechCrunch reportó que Guide Labs salió de Y Combinator y recaudó una ronda semilla de USD $9 millones de Initialized Capital en noviembre de 2024. El siguiente paso, según el medio, es construir un modelo más grande y comenzar a ofrecer API y acceso “agencial” a usuarios.

“La forma en que actualmente estamos entrenando modelos es súper primitiva, y por lo tanto democratizar la interpretabilidad inherente va a ser algo bueno a largo plazo para nosotros como raza humana. A medida que vamos tras estos modelos que van a ser súper inteligentes, no quieres que algo tome decisiones en tu nombre que sea un misterio para ti”, indicó Adebayo.


Artículo escrito con ayuda de un redactor de contenido de IA, editado por Angel Di Matteo / DiarioBitcoin

Imagen original de DiarioBitcoin, creada con inteligencia artificial, de uso libre, licenciada bajo Dominio Público


ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.

Suscríbete a nuestro boletín