OpenAI Whisper 進行說話者區辨

「mosiwang」的個人頭像
自然語言處理(NLP)技術的發展日新月異,其中說話者區辨(Speaker Diarization)技術越來越受到重視。這是一種在音頻中識別誰在何時說話的技術,廣泛應用於會議紀錄、訪談分析和多媒體內容的自動標註等場景。本文將介紹如何使用 OpenAI 的 Whisper 模型來實現說話者區辨。

什麼是說話者區辨?
說話者區辨是識別音頻中的不同說話者的過程。其主要挑戰在於音頻中可能有重疊的聲音、背景噪音和不同的語音特徵。因此,傳統的語音識別技術常常難以應對多說話者的情況。

OpenAI Whisper 簡介
OpenAI Whisper 是一種先進的自動語音識別(ASR)系統,旨在提高語音轉文本的準確性。它支持多種語言的識別,並能處理各種口音和背景噪音。值得注意的是,Whisper 不僅僅專注於將語音轉換為文本,它也具備對音頻中多個說話者進行識別的能力,使其在說話者區辨方面非常有用。

Github 上的 Whisper Diarization
這個資料庫結合了 Whisper 語音識別 (ASR)、語音活動檢測 (VAD) 和說話者嵌入技術,能夠識別每句話的說話者,這些話都是由 Whisper 生成的轉錄文本。首先,音軌將從音頻中被提取,以提高說話者嵌入的準確性。接下來,利用 Whisper 生成轉錄文本,然後運用 WhisperX 修正和對齊時間戳,這樣可以減少由於時間偏移造成的識別錯誤。隨後,音頻會傳入 MarbleNet 進行 VAD 和靜音排除;之後使用 TitaNet 提取說話者嵌入,以識別每段的說話者。最終,這些信息與 WhisperX 生成的時間戳相關聯,從而檢測每個單詞的說話者,並使用標點模型進行重新對齊,以補償輕微的時間偏移。

https://github.com/MahmoudAshraf97/whisper-diarization



Tagged in :

「mosiwang」的個人頭像

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *