📌 LMCache/LMCache – 極速 KV 快取層,超能加速 LLM 推理

1 至 2 分鐘

277 個字元

LMCache 是一個高性能的 KV 快取層,旨在為大語言模型 (LLM) 提供極速的 KV 快取機制。透過有…

LMCache 是一個高性能的 KV 快取層,旨在為大語言模型 (LLM) 提供極速的 KV 快取機制。透過有效地共享和儲存 KV 快取,LMCache 能顯著降低首字延遲 (TTFT),尤其在處理長文本 (Long Context) l重複查詢的場景下,效能提升極為顯著。

🔍 項目特色

使用 vLLM 引擎,可實現多個 vLLM 實例之間共享前綴 KV 快取。提供 Docker 部署方案,能快速在 GPU 環境中搭建 LMCache 後端,大幅減少重複計算量,提升 LLM 在複雜 QA 應用中的回應速度。

⭐ 即時人氣

  • 8,636 ⭐

🚀 查看 GitHub 專案


📡 來源: GitHub Trending (Daily) | 每週自動追蹤

「mosiwang」的個人頭像

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *