VibeVoice 是微軟開源的最新語音 AI 專案,整合了自動語音辨識(ASR)與文字轉語音(TTS)能力,瞄準語音互動的前沿應用場景。
🔍 項目特色
VibeVoice-ASR 是一個統一的語音轉文字模型,可在單次處理中完成60 分鐘長音頻的轉錄,生成結構化結果(包含誰在說話、時間戳記與內容),並支援使用者自訂上下文。模型原生支援超過 50 種語言的多語言辨識,且已整合进 Hugging Face Transformers 庫。
VibeVoice-Realtime-0.5B 是即時文字轉語音模型,實驗性地支援多語言聲音(德語、法語、義語、日語、韓語等 9 種語言)以及 11 種不同風格的英語語音。
微軟同時提供了詳盡的技術報告(arXiv)、vLLM 加速推理支援、Colab 示範與 ASR Playground,方便開發者快速上手。
⭐ 即時人氣
- 45,693 ⭐
- 5,051 forks
📡 來源: GitHub Trending (Daily) | 每週自動追蹤
發佈留言