Apple 官方的 mlx-lm(GitHub)是最成熟的 MLX
推理工具,支持推理和 LoRA/QLoRA fine-tuning,内置 OpenAI-compatible
server mode。Rapid-MLX(GitHub,2026-03-23
发布)定位为 Ollama 的 drop-in replacement,在 M3 Ultra 上实测比
Ollama(llama.cpp 后端)快 2-4.2 倍。vLLM-MLX(GitHub)带来
continuous batching,5 并发请求时吞吐量提升 3.4
倍。oMLX(GitHub)专门为 coding agent
场景优化,用 SSD 做 KV cache 持久化,把重复 prefix 的 TTFT 从 30-90
秒压缩到 1-3 秒。LM Studio 的 mlx-engine(GitHub,MIT
开源,本体闭源)在 0.4.2 版本添加了 MLX 的 continuous batching,支持 MLX
和 GGUF 双后端自动切换。