oMLX 是一款專為 Apple Silicon Mac 伺服器优化的 LLM 推理伺服器,提供持續批次處理(Continuous Batching)和分層 KV 快取(SSD Caching)技術,所有操作都可从 macOS 菜單欄直接管理。
oMLX 解決了本地 LLM 部署的痛點:讓你能夠固定常用模型在內存中,按需自動切換更大的模型,設定上下文限制。更重要的是,它的 KV 快取能夠跨請求保持,即使上下文中途變化,過往的所有上下文都保持可快取和可重用,使得本地 LLM 能夠勝任真正的編碼工作。
🔍 项目特色
Mac 原生體驗:菜單欄管理,一鍵操作。持續批次處理:提升推理效率,減少延遲。SSD 級快取:數據在冷热層间自動遷移。多模型支援:無縫切換不同大小的模型。MCP 協議支援:可作為 Model Context Protocol 伺服器使用。
⭐ 即时人气
- 13,289 ⭐
- 1,136 🍴
- 185 今日新增 ⭐
📡 来源: GitHub Trending (Daily) | 每周自动追踪
發佈留言