📌 LMCache/LMCache – 高效能 LLM KV 快取加速層

1 至 2 分鐘

–

233 個字元

LMCache 是一個專為大語言模型 (LLM) 設計的高性能 KV 快取層，旨在大幅降低長文本處理的首字回應…

LMCache 是一個專為大語言模型 (LLM) 設計的高性能 KV 快取層，旨在大幅降低長文本處理的首字回應時間 (TTFT)。透過快取先前計算過的 KV 狀態，讓模型在處理相同或相似前綴的請求時無需重新計算。

🔍 項目特色

支援在不同的 vLLM 實例之間共享前綴 KV 快取，有效提升多實例部署的吞吐量並降低延遲。提供 Docker 化部署方案，可輕鬆整合至現有的 vLLM 推理流水線中。

📡 來源: GitHub Trending (Daily) | 每週自動追蹤