OpenAI Whisper 進行說話者區辨

mosiwang

2024-08-10

自然語言處理（NLP）技術的發展日新月異，其中說話者區辨（Speaker Diarization）技術越來越受到重視。這是一種在音頻中識別誰在何時說話的技術，廣泛應用於會議紀錄、訪談分析和多媒體內容的自動標註等場景。本文將介紹如何使用 OpenAI 的 Whisper 模型來實現說話者區辨。

什麼是說話者區辨？
說話者區辨是識別音頻中的不同說話者的過程。其主要挑戰在於音頻中可能有重疊的聲音、背景噪音和不同的語音特徵。因此，傳統的語音識別技術常常難以應對多說話者的情況。

OpenAI Whisper 簡介
OpenAI Whisper 是一種先進的自動語音識別（ASR）系統，旨在提高語音轉文本的準確性。它支持多種語言的識別，並能處理各種口音和背景噪音。值得注意的是，Whisper 不僅僅專注於將語音轉換為文本，它也具備對音頻中多個說話者進行識別的能力，使其在說話者區辨方面非常有用。

Github 上的 Whisper Diarization 
這個資料庫結合了 Whisper 語音識別 (ASR)、語音活動檢測 (VAD) 和說話者嵌入技術，能夠識別每句話的說話者，這些話都是由 Whisper 生成的轉錄文本。首先，音軌將從音頻中被提取，以提高說話者嵌入的準確性。接下來，利用 Whisper 生成轉錄文本，然後運用 WhisperX 修正和對齊時間戳，這樣可以減少由於時間偏移造成的識別錯誤。隨後，音頻會傳入 MarbleNet 進行 VAD 和靜音排除；之後使用 TitaNet 提取說話者嵌入，以識別每段的說話者。最終，這些信息與 WhisperX 生成的時間戳相關聯，從而檢測每個單詞的說話者，並使用標點模型進行重新對齊，以補償輕微的時間偏移。

https://github.com/MahmoudAshraf97/whisper-diarization

Tagged in :

mosiwang

生成式AI情報站

OpenAI Whisper 進行說話者區辨

發佈留言取消回覆

OpenAI Whisper 進行說話者區辨

發佈留言 取消回覆

發佈留言取消回覆