📌 z-lab/dflash – 閃電推理加速的擴散模型框架

1 至 2 分鐘

–

334 個字元

DFlash 是一款針對推測解碼（Speculative Decoding）優化的輕量級擴散模型，能夠實現高…

DFlash 是一款針對推測解碼（Speculative Decoding）優化的輕量級 擴散模型，能夠實現高效且高品質的並行草稿生成。通過塊擴散機制，顯著提升大型語言模型的推理速度，同時保持生成品質。

🔍 項目特色

支援多種主流模型，包括 Gemma-4 系列、Qwen3.6 系列、MiniMax-M2.5、Kimi-K2.5 等。提供 Transformers、SGLang、vLLM、MLX 等多種後端支援。可通過 Docker 快速部署，也可直接使用 vLLM 的原生 DFlash 支援。框架設計簡潔，易於擴展到其他 LLM 模型。

⭐ 即時人氣

3,851 ⭐ (今日新增 379 顆星)
265 個 Fork
語言：Python

🚀 查看 GitHub 專案

📡 來源: GitHub Trending (Daily) | 每週自動追蹤

mosiwang

📌 z-lab/dflash – 閃電推理加速的擴散模型框架

🔍 項目特色

⭐ 即時人氣

發佈留言 取消回覆

發佈留言取消回覆