LMCache 是一個專為大語言模型 (LLM) 設計的高性能 KV 快取層,旨在大幅降低長文本處理的首字回應時間 (TTFT)。透過快取先前計算過的 KV 狀態,讓模型在處理相同或相似前綴的請求時無需重新計算。
🔍 項目特色
支援在不同的 vLLM 實例之間共享前綴 KV 快取,有效提升多實例部署的吞吐量並降低延遲。提供 Docker 化部署方案,可輕鬆整合至現有的 vLLM 推理流水線中。
⭐ 即時人氣
- 8,892 ⭐
📡 來源: GitHub Trending (Daily) | 每週自動追蹤
發佈留言