2026-06-13 23:19:12

Apple 官方的 mlx-lm(GitHub)是最成熟的 MLX

推理工具,支持推理和 LoRA/QLoRA fine-tuning,内置 OpenAI-compatible

server mode。Rapid-MLX(GitHub,2026-03-23

发布)定位为 Ollama 的 drop-in replacement,在 M3 Ultra 上实测比

Ollama(llama.cpp 后端)快 2-4.2 倍。vLLM-MLX(GitHub)带来

continuous batching,5 并发请求时吞吐量提升 3.4

倍。oMLX(GitHub)专门为 coding agent

场景优化,用 SSD 做 KV cache 持久化,把重复 prefix 的 TTFT 从 30-90

秒压缩到 1-3 秒。LM Studio 的 mlx-engine(GitHub,MIT

开源,本体闭源)在 0.4.2 版本添加了 MLX 的 continuous batching,支持 MLX

和 GGUF 双后端自动切换。