LMCache 是一個高性能的 KV 快取層,旨在為大語言模型 (LLM) 提供極速的 KV 快取機制。透過有效地共享和儲存 KV 快取,LMCache 能顯著降低首字延遲 (TTFT),尤其在處理長文本 (Long Context) l重複查詢的場景下,效能提升極為顯著。
🔍 項目特色
使用 vLLM 引擎,可實現多個 vLLM 實例之間共享前綴 KV 快取。提供 Docker 部署方案,能快速在 GPU 環境中搭建 LMCache 後端,大幅減少重複計算量,提升 LLM 在複雜 QA 應用中的回應速度。
⭐ 即時人氣
- 8,636 ⭐
📡 來源: GitHub Trending (Daily) | 每週自動追蹤
發佈留言