oMLX 是一款專為 Apple Silicon Mac 伺服器 optimizes 的 LLM 推理伺服器,提供持續批次處理(Continuous Batching)和分層 KV 快取(SSD Caching)技術,所有操作都可從 macOS 菜單欄直接管理。
oMLX 解決了本地 LLM 部署的痛點:讓你能夠固定常用模型在內存中,按需自動切換更大的模型,設定上下文限制。更重要的是,它的 KV 快取能夠跨請求保持,即使上下文中途變化,過往的所有上下文都保持可快取和可重用,使得本地 LLM 能夠勝任真正的編碼工作。
🔍 項目特色
✅ Mac 原生體驗:菜單欄管理,一鍵操作
✅ 持續批次處理:提升推理效率,減少延遲
✅ SSD 級快取:數據在冷熱層间自動遷移
✅ 多模型支援:無縫切換不同大小的模型
✅ MCP 協議支援:可作為 Model Context Protocol 伺服器使用
⭐ 即時人氣
- 13,289 ⭐
- 1,136 🍴
- 185 今日新增 ⭐
📡 來源: GitHub Trending (Daily) | 每週自動追蹤
發佈留言