📌 jundot/omlx – 專為 Mac 打造的 LLM 推理伺服器

2 至 3 分鐘

–

423 個字元

oMLX 是一款專為 Apple Silicon Mac 伺服器 optimizes 的 LLM 推理伺服器，…

oMLX 是一款專為 Apple Silicon Mac 伺服器 optimizes 的 LLM 推理伺服器，提供持續批次處理（Continuous Batching）和分層 KV 快取（SSD Caching）技術，所有操作都可從 macOS 菜單欄直接管理。

oMLX 解決了本地 LLM 部署的痛點：讓你能夠固定常用模型在內存中，按需自動切換更大的模型，設定上下文限制。更重要的是，它的 KV 快取能夠跨請求保持，即使上下文中途變化，過往的所有上下文都保持可快取和可重用，使得本地 LLM 能夠勝任真正的編碼工作。

🔍 項目特色

✅ Mac 原生體驗：菜單欄管理，一鍵操作
✅ 持續批次處理：提升推理效率，減少延遲
✅ SSD 級快取：數據在冷熱層间自動遷移
✅ 多模型支援：無縫切換不同大小的模型
✅ MCP 協議支援：可作為 Model Context Protocol 伺服器使用

📡 來源: GitHub Trending (Daily) | 每週自動追蹤

mosiwang