📌 z-lab/dflash – 閃電推理解碼的塊擴散模型

2 至 3 分鐘

–

488 個字元

z-lab/dflash 是一個專為推理解碼（Speculative Decoding）設計的輕量級塊擴散模型…

z-lab/dflash 是一個專為推理解碼（Speculative Decoding）設計的輕量級塊擴散模型，能夠實現高效且高品質的並行草案生成（Parallel Drafting），顯著提升大型語言模型的推理速度。

DFlash 通過塊擴散機制，在保證生成品質的前提下，大幅提升 LLM 的推理效率。目前已支援多個主流模型，包括 Gemma-4 系列、Qwen3.6/3.5 系列、gpt-oss、Llama-3.1 等，並且持續新增更多模型支援。

專案提供了多個後端實現：Transformers、SGLang、vLLM、MLX（Apple Silicon），讓開發者可以根據自己的硬件環境靈活選擇。

🔍 項目特色

📡 來源: GitHub Trending (Daily) | 每週自動追蹤