📌 z-lab/dflash – 閃電推理加速的擴散模型框架

1 至 2 分鐘

334 個字元

DFlash 是一款針對推測解碼(Speculative Decoding)優化的輕量級 擴散模型,能夠實現高…

DFlash 是一款針對推測解碼(Speculative Decoding)優化的輕量級 擴散模型,能夠實現高效且高品質的並行草稿生成。通過塊擴散機制,顯著提升大型語言模型的推理速度,同時保持生成品質。

🔍 項目特色

支援多種主流模型,包括 Gemma-4 系列、Qwen3.6 系列、MiniMax-M2.5、Kimi-K2.5 等。提供 Transformers、SGLang、vLLM、MLX 等多種後端支援。可通過 Docker 快速部署,也可直接使用 vLLM 的原生 DFlash 支援。框架設計簡潔,易於擴展到其他 LLM 模型。

⭐ 即時人氣

  • 3,851 ⭐ (今日新增 379 顆星)
  • 265 個 Fork
  • 語言:Python

🚀 查看 GitHub 專案


📡 來源: GitHub Trending (Daily) | 每週自動追蹤

「mosiwang」的個人頭像

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *