📌 microsoft/VibeVoice – 微軟開源前沿語音 AI,ASR + 即時 TTS + 60 分鐘長音頻

2 至 3 分鐘

415 個字元

VibeVoice 是微軟開源的最新語音 AI 專案,整合了自動語音辨識(ASR)與文字轉語音(TTS)能力,…

VibeVoice 是微軟開源的最新語音 AI 專案,整合了自動語音辨識(ASR)與文字轉語音(TTS)能力,瞄準語音互動的前沿應用場景。

🔍 項目特色

VibeVoice-ASR 是一個統一的語音轉文字模型,可在單次處理中完成60 分鐘長音頻的轉錄,生成結構化結果(包含誰在說話、時間戳記與內容),並支援使用者自訂上下文。模型原生支援超過 50 種語言的多語言辨識,且已整合进 Hugging Face Transformers 庫。

VibeVoice-Realtime-0.5B 是即時文字轉語音模型,實驗性地支援多語言聲音(德語、法語、義語、日語、韓語等 9 種語言)以及 11 種不同風格的英語語音。

微軟同時提供了詳盡的技術報告(arXiv)、vLLM 加速推理支援、Colab 示範與 ASR Playground,方便開發者快速上手。

⭐ 即時人氣

  • 45,693 ⭐
  • 5,051 forks

🚀 查看 GitHub 專案


📡 來源: GitHub Trending (Daily) | 每週自動追蹤

「mosiwang」的個人頭像

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *