📌 microsoft/VibeVoice – 微軟開源前沿語音 AI，ASR + 即時 TTS + 60 分鐘長音頻

2 至 3 分鐘

–

415 個字元

VibeVoice 是微軟開源的最新語音 AI 專案，整合了自動語音辨識（ASR）與文字轉語音（TTS）能力，…

VibeVoice 是微軟開源的最新語音 AI 專案，整合了自動語音辨識（ASR）與文字轉語音（TTS）能力，瞄準語音互動的前沿應用場景。

🔍 項目特色

VibeVoice-ASR 是一個統一的語音轉文字模型，可在單次處理中完成60 分鐘長音頻的轉錄，生成結構化結果（包含誰在說話、時間戳記與內容），並支援使用者自訂上下文。模型原生支援超過 50 種語言的多語言辨識，且已整合进 Hugging Face Transformers 庫。

VibeVoice-Realtime-0.5B 是即時文字轉語音模型，實驗性地支援多語言聲音（德語、法語、義語、日語、韓語等 9 種語言）以及 11 種不同風格的英語語音。

微軟同時提供了詳盡的技術報告（arXiv）、vLLM 加速推理支援、Colab 示範與 ASR Playground，方便開發者快速上手。

⭐ 即時人氣

45,693 ⭐
5,051 forks

🚀 查看 GitHub 專案

📡 來源: GitHub Trending (Daily) | 每週自動追蹤

📌 microsoft/VibeVoice – 微軟開源前沿語音 AI，ASR + 即時 TTS + 60 分鐘長音頻

🔍 項目特色

⭐ 即時人氣

發佈留言 取消回覆

發佈留言取消回覆