MLX：Apple Silicon 上本地推理的下一个底层引擎-活动公告-斯玛特游戏驱动站

2026-06-13 23:19:12

by admin>活动公告

Apple 官方的 mlx-lm（GitHub）是最成熟的 MLX

推理工具，支持推理和 LoRA/QLoRA fine-tuning，内置 OpenAI-compatible

server mode。Rapid-MLX（GitHub，2026-03-23

发布）定位为 Ollama 的 drop-in replacement，在 M3 Ultra 上实测比

Ollama（llama.cpp 后端）快 2-4.2 倍。vLLM-MLX（GitHub）带来

continuous batching，5 并发请求时吞吐量提升 3.4

倍。oMLX（GitHub）专门为 coding agent

场景优化，用 SSD 做 KV cache 持久化，把重复 prefix 的 TTFT 从 30-90

秒压缩到 1-3 秒。LM Studio 的 mlx-engine（GitHub，MIT

开源，本体闭源）在 0.4.2 版本添加了 MLX 的 continuous batching，支持 MLX

和 GGUF 双后端自动切换。