DFlash 是一款針對推測解碼(Speculative Decoding)優化的輕量級 擴散模型,能夠實現高效且高品質的並行草稿生成。通過塊擴散機制,顯著提升大型語言模型的推理速度,同時保持生成品質。
🔍 項目特色
支援多種主流模型,包括 Gemma-4 系列、Qwen3.6 系列、MiniMax-M2.5、Kimi-K2.5 等。提供 Transformers、SGLang、vLLM、MLX 等多種後端支援。可通過 Docker 快速部署,也可直接使用 vLLM 的原生 DFlash 支援。框架設計簡潔,易於擴展到其他 LLM 模型。
⭐ 即時人氣
- 3,851 ⭐ (今日新增 379 顆星)
- 265 個 Fork
- 語言:Python
📡 來源: GitHub Trending (Daily) | 每週自動追蹤
發佈留言