z-lab/dflash 是一個專為推理解碼(Speculative Decoding)設計的輕量級塊擴散模型,能夠實現高效且高品質的並行草案生成(Parallel Drafting),顯著提升大型語言模型的推理速度。
DFlash 通過塊擴散機制,在保證生成品質的前提下,大幅提升 LLM 的推理效率。目前已支援多個主流模型,包括 Gemma-4 系列、Qwen3.6/3.5 系列、gpt-oss、Llama-3.1 等,並且持續新增更多模型支援。
專案提供了多個後端實現:Transformers、SGLang、vLLM、MLX(Apple Silicon),讓開發者可以根據自己的硬件環境靈活選擇。
🔍 項目特色
- 高效推理加速:通過推理解碼技術顯著提升 LLM 推理速度
- 多模型支援:兼容主流的開源和商業 LLM
- 多後端實現:支援 Transformers、vLLM、SGLang、MLX 等
- 開源可訓練:計劃開源訓練配方,讓用戶可訓練自己的 DFlash 草案模型
- 生產就緒:提供 Docker 鏡像和完整的部署指南
⭐ 即時人氣
- 3,503 ⭐
📡 來源: GitHub Trending (Daily) | 每週自動追蹤