Por Canuto  

Apple presentó una hoja de ruta concreta para ejecutar agentes de IA de forma totalmente local en Mac usando MLX, una propuesta que busca combinar privacidad, cero dependencia de la nube y mejor integración con herramientas de desarrollo como Xcode.
***

  • Apple explicó cómo montar un flujo de IA agentic local en Mac con MLX, MLX-LM y MLX-LM Server.
  • La compañía destacó mejoras de rendimiento con Neural Accelerators, batching continuo e inferencia distribuida entre varios Mac.
  • Las demostraciones incluyeron revisión de pull requests, creación de una app en SwiftUI y corrección de errores dentro de Xcode.


Apple mostró una nueva apuesta por la inteligencia artificial local en Mac, centrada en agentes capaces de razonar, usar herramientas y completar tareas sin depender de servicios en la nube. La propuesta gira alrededor de MLX, su framework de código abierto diseñado para Apple silicon, y de una capa de servidor que permite exponer modelos locales con una API compatible con OpenAI.

La presentación fue realizada por Angelos, ingeniero del equipo de MLX, en WWDC26: Run local agentic AI on the Mac using MLX | Apple, publicado por Apple Developer el 8 de junio de 2026. Allí explicó que el objetivo es permitir flujos de trabajo agentic completos “sin nube, sin claves API”, dejando el procesamiento en el propio hardware del usuario.

El planteamiento apunta a un cambio importante en la manera de usar modelos de lenguaje en equipos personales. En vez de limitarse a un chat que responde texto, un agente puede interpretar una instrucción, decidir acciones, llamar herramientas, observar resultados y repetir ese ciclo hasta terminar una tarea.

Ese circuito, descrito como “user to agent, agent to model, agent to tools”, es lo que Apple presenta como el bucle agentic. Según la compañía, el atractivo en Apple silicon está en que toda esa secuencia puede ejecutarse localmente, lo que mantiene los datos en la máquina, permite disponibilidad permanente y elimina costos de uso por consumo de API.

La arquitectura de cuatro capas que propone Apple

Apple dividió su stack de IA agentic local en cuatro capas. En la base está MLX, definido como un framework abierto de arrays creado específicamente para Apple silicon. Esa capa se encarga del cómputo de bajo nivel, la aceleración con Metal y la gestión de memoria.

Un nivel más arriba aparece la capa de modelos de lenguaje. Para ello, Apple utiliza MLX-LM, que ofrece herramientas para cargar, ejecutar, cuantizar y ajustar modelos grandes de lenguaje. También indicó que soporta miles de modelos de HuggingFace e incluye herramientas por línea de comandos y una API en Python.

La tercera capa es MLX-LM Server, que Apple describió como un servidor HTTP compatible con OpenAI. Su papel es exponer el modelo local mediante una interfaz estándar. Además, incorpora llamadas estructuradas a herramientas para que el modelo invoque funciones de forma confiable y soporte para modelos de razonamiento capaces de resolver problemas complejos paso a paso.

En la parte superior se ubica el agente. Apple señaló que puede ser cualquier framework o herramienta que hable el protocolo de chat completions de OpenAI, incluyendo Xcode, OpenCode, Pi agent o scripts personalizados. La consecuencia práctica es que un agente no necesita saber si el modelo corre en la nube o en un Mac local.

La compañía también quiso subrayar que no trabaja sola en este terreno. Mencionó que varias herramientas populares ya construyen sobre MLX y MLX-LM, entre ellas Ollama, LM Studio y vLLM. Con ello, Apple trató de presentar a MLX no solo como una tecnología interna, sino como parte de un ecosistema abierto y en expansión.

Cómo configurar un agente local en Mac

Apple resumió la puesta en marcha en tres pasos. El primero es instalar MLX-LM con un único comando de pip. El segundo consiste en iniciar el servidor usando mlx_lm.server con un modelo que soporte tool calling. La recomendación inicial fue comenzar con un modelo pequeño para validar la configuración.

Una vez que el servidor está activo y el modelo cargado, queda escuchar solicitudes en localhost. El tercer paso es apuntar el agente hacia esa dirección local. Según la explicación, en la mayoría de frameworks basta con ajustar la base URL al servidor local y especificar el nombre del modelo esperado.

La demostración concreta se hizo con OpenCode. Allí se definió un proveedor local, se indicó la URL de localhost y se configuró el nombre del modelo. Después, se ordenó a OpenCode usar esa opción local para todas las tareas. Apple enfatizó que, desde la perspectiva del agente, la interacción es equivalente a la de una API remota.

Ese detalle no es menor para desarrolladores y empresas. La compatibilidad con interfaces ya conocidas reduce la fricción de adopción y facilita probar modelos locales sin rehacer toda la pila. En un mercado donde gran parte del software de IA depende de APIs comerciales, la posibilidad de sustituirlas localmente puede resultar atractiva por privacidad, costo y control operativo.

Los tres cuellos de botella: contexto, concurrencia y tamaño del modelo

Apple dedicó buena parte de la sesión a justificar por qué la ejecución local de agentes no solo es viable, sino eficiente. El primer desafío señalado fue el procesamiento de prompts. En un flujo agentic, cada salida de una herramienta se convierte en nuevo contexto, y el modelo debe volver a procesarlo antes de decidir el siguiente paso.

La empresa afirmó que este problema crece rápido porque las sesiones agentic suelen sumar cientos de miles de tokens, y la mayoría de esos tokens no son generados, sino leídos y procesados. En ese contexto, Apple sostuvo que el chip M5 introduce Neural Accelerators dedicados, y que MLX puede aprovecharlos automáticamente para este tipo de cargas.

La cifra destacada fue una multiplicación de matrices cuatro veces más rápida en M5 frente a M4. Según la presentación, combinada con kernels especializados de multiplicación y atención en MLX, esa mejora se traduce casi de forma directa en mayor velocidad para procesar prompts. En términos prácticos, Apple dijo que un agente puede leer una base de código o resultados de herramientas casi cuatro veces más rápido.

La segunda limitación abordada fue la concurrencia. Apple señaló que los agentes rara vez trabajan solos. Una práctica común es que un agente principal cree varios subagentes en paralelo, con uno revisando documentación, otro buscando código y un tercero escribiendo pruebas al mismo tiempo.

Para resolverlo, MLX-LM Server incorpora continuous batching. Esta técnica agrupa solicitudes dinámicamente y las procesa de manera conjunta sobre la GPU, incluso permitiendo que nuevas peticiones se sumen a un batch ya en marcha. El resultado, según Apple, es que los subagentes no quedan detenidos en una cola y el flujo de trabajo sigue avanzando.

El tercer desafío es el tamaño del modelo. Apple puso como ejemplo el modelo más reciente de DeepSeek, al que atribuyó 1,6 billones de parámetros y un requerimiento superior a 800 GB de memoria solo para los pesos. Frente a ese escenario, una sola máquina, incluso con 512 GB de RAM, puede quedarse corta.

La respuesta propuesta es el soporte distribuido de MLX. La compañía explicó que es posible repartir un modelo entre varios Mac conectados por Thunderbolt o Ethernet. Esto permite ejecutar modelos que no caben en un solo equipo y, además, paralelizar el procesamiento de prompts entre dispositivos para acelerar el bucle agentic.

La puesta en marcha se realiza con mlx.launch y un hostfile que contiene información sobre los nodos y el tipo de conexión. Apple añadió que, a partir de macOS 26.2, existe soporte para Thunderbolt RDMA, una mejora de comunicación de baja latencia y alto ancho de banda. Según la sesión, esto ha permitido aceleraciones de hasta tres veces con cuatro nodos en inferencia distribuida.

Las demostraciones: GitHub, SwiftUI y corrección de errores en Xcode

Para mostrar el sistema en acción, Apple enseñó primero un agente local en Mac encargado de revisar pull requests recientes del repositorio de MLX. La solicitud consistía en obtener esos PR, resumir los cambios e identificar aquello que requería atención del desarrollador.

En la demostración, el modelo razonó sobre la petición, usó GitHub CLI para recuperar datos, leyó los diffs y produjo un resumen conciso. Apple precisó que todo el razonamiento y procesamiento del modelo ocurrió localmente en el hardware del Mac, mientras que solo los comandos de git tocaron la red.

Más adelante, la compañía elevó la complejidad con una tarea de generación de software. En un proyecto vacío de Xcode, el agente recibió la instrucción de construir desde cero una aplicación de dibujo para iPad usando SwiftUI. Primero inspeccionó la estructura del directorio, luego planteó un plan y empezó a escribir código.

Apple remarcó que el agente no solo escribió archivos, sino que también compiló la app y corrigió errores encontrados durante el proceso. El resultado fue una primera versión funcional en “un par de minutos”. En la demo, la aplicación se abrió en el simulador y permitió dibujar correctamente.

Después se hizo una segunda iteración sobre la misma app. El cambio pedido fue añadir extremos redondeados a los trazos. El agente volvió a editar el código, recompilar y corregir problemas hasta dejar la app en estado funcional. Con ello, Apple quiso mostrar una dinámica de mejora continua muy cercana al trabajo cotidiano de desarrollo.

La sesión cerró con una integración directa en Xcode. Para conectar el entorno al servidor local de MLX, se abrió la configuración, se ingresó a la pestaña Intelligence, se añadió un proveedor de chat alojado localmente y se fijó el puerto 8080, o el que se hubiera escogido al lanzar el servidor.

Luego, Apple introdujo un error en la app de dibujo que ya funcionaba. El modelo, conectado localmente, identificó el fallo, inspeccionó el código relacionado y redactó una solución. Tras ello, el proyecto volvió a compilar y ejecutarse. La lectura de Apple es que la IA local puede integrarse de manera natural con el flujo de desarrollo, leer archivos, entender errores de build y aplicar correcciones puntuales sin sacar el código del equipo.

Qué significa esta jugada para el ecosistema de IA

La apuesta de Apple combina varios mensajes estratégicos. El primero es privacidad. Al insistir en que el código y los datos no salen del Mac, la empresa busca diferenciarse de los enfoques basados en servicios remotos. Ese argumento puede tener peso entre desarrolladores, empresas con políticas estrictas y equipos que trabajan con propiedad intelectual sensible.

El segundo es costo. La ausencia de claves API y cargos por uso cambia la economía de experimentar con agentes, sobre todo en tareas repetitivas o extensas. Aunque el hardware sigue siendo una barrera de entrada, Apple intenta posicionar al Mac como una estación de trabajo capaz de absorber parte del gasto que hoy recae en proveedores de IA en la nube.

El tercer punto es interoperabilidad. Al ofrecer compatibilidad con la API de OpenAI, MLX-LM Server reduce el costo de migración para herramientas existentes. Esa decisión puede facilitar pruebas comparativas entre modelos locales y servicios remotos, y abre la puerta a que más software adopte esquemas híbridos según necesidades de latencia, privacidad o presupuesto.

Para un público que sigue de cerca IA, infraestructura y mercados tecnológicos, el movimiento también aporta una lectura competitiva. La carrera por agentes útiles ya no se centra solo en quién tiene el modelo más grande, sino en quién ofrece una plataforma práctica para integrarlos al trabajo diario. Apple está diciendo que el valor puede estar tanto en el chip, el sistema y las herramientas, como en el modelo mismo.

Al cierre de la sesión, Apple sostuvo que todo lo mostrado ya está disponible como código abierto. Su invitación fue directa: instalar MLX-LM, lanzar el servidor y conectar el agente favorito. Si la propuesta gana tracción, el Mac podría consolidarse no solo como equipo de desarrollo, sino como nodo personal de inteligencia artificial autónoma.


ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.

Suscríbete a nuestro boletín