📌 LMCache/LMCache – 高效能 LLM KV 快取加速層

1 至 2 分鐘

233 個字元

LMCache 是一個專為大語言模型 (LLM) 設計的高性能 KV 快取層,旨在大幅降低長文本處理的首字回應…

LMCache 是一個專為大語言模型 (LLM) 設計的高性能 KV 快取層,旨在大幅降低長文本處理的首字回應時間 (TTFT)。透過快取先前計算過的 KV 狀態,讓模型在處理相同或相似前綴的請求時無需重新計算。

🔍 項目特色

支援在不同的 vLLM 實例之間共享前綴 KV 快取,有效提升多實例部署的吞吐量並降低延遲。提供 Docker 化部署方案,可輕鬆整合至現有的 vLLM 推理流水線中。

⭐ 即時人氣

  • 8,892 ⭐

🚀 查看 GitHub 專案


📡 來源: GitHub Trending (Daily) | 每週自動追蹤

「mosiwang」的個人頭像

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *