手把手教你打造最自然的 Ai 語音技術
過去配音員替客服或是產品配音,至少都需要上萬句才可完成配音,但透過自訂神經語音僅需幾百句就能完成配音。而本篇所要介紹的就是 Azure 的 TTS 。雖然使用申請相較於過去變得更加嚴格,不僅需事先填寫表單提 Azure 審核,訓練模型的最低門檻也要 300 句才能訓練。但如果讀者有需要的話也可以了解大致的實作過程。
一、Microsoft Azure 自訂神經語音使用場景設定
有個家電業者近期將推出智慧管家產品,需要請人為該產品配音。最終決定透過客製化語音來合成產品的配音,因為這樣日後語音資料庫也比較好進行擴充,不必再麻煩配音員重新配音。(由於受限於資源限制,訓練模型之後的步驟,只會簡單敘述並不會實作)。
二、Microsoft Azure 自訂神經語音實作步驟
下圖為我們實作的大致流程圖
Microsoft Azure 自訂神經語音大致流程圖
1. 申請 Microsoft Azure Speech Service 服務
a. 登入 Azure 入口網站,進入主控台選擇認知服務
Azure 主控台
b. 下滑並選擇語音服務,並點選建立。
c. 建立 Speech Service 資源
建立 Speech Service 資源
Speech Service 並須隸屬於一個資源群組,如果之前沒創過,需先新建資源群組。
- 由於自訂神經語音僅限美國東部、東南亞和英國南部,因此區域需選三個地區的其中一個。
- 神經語音僅能搭配 S0 層,故 Pricing tier 選擇 S0
- Network 則可以選擇網路存取的權限
- 完成後點選檢閱+建立
d.部署完成後便能前往資源
e.點選「探索」標籤
d.往下滑點選 Speech Studio,並前往 Speech Studio
2.使用客製化文字轉語音
a.進入 Speech Studio,往下滑至文字轉語音並選擇自訂語音
b.接著點選剛所建立的資源
使用資源會跳出警示,Azure 會要求你填完使用需求表單才可以使用自訂神經語音。如果你沒填仍可以繼續接下來的流程,但到訓練模型階段,就需填寫完畢才能繼續進行。
c.選擇男聲還女聲以及語言類型
專案建立後就可以進入專案介面。
3.設定配音員
a.進入後點選新增語音配音員
b.選擇語音特性,我們選擇「智慧管家」的語音特性
c.上傳語音配音員聲明,請錄音員錄一段聲明以避免日後被濫用
4.語音資料格式
錄製音訊檔案的詳細格式在官網都有說明,主要是檔案格式為 wav,且單一檔案需小於 15 秒。
我們依據氣象預報的講稿,分段錄了五個檔案,檔名分別為001至005。錄完後將五個音訊檔案壓縮為一個zip,我們取名為「sample.zip」
接著建立一個文字檔(txt),每行內容為「檔案名稱」與「音訊內容逐字稿」,中間以定位字元 (\t) 分隔
5.準備定型資料
a.進入準備定型資料,MyVoice 是我們之前先創的,第一次進入不會有任何資料。
b.點選新增訓練集,命名以及給予描述
c.進入剛創建的資料集,點選上傳資料就能選擇資料類型
d.上傳步驟 4 所完成的錄音檔和文字檔
e.一直按下一步直到完成,完成後可至訓練集,查看語音資料的品質是否合格
6.訓練神經模型
神經模型訓練至少需要 300 個語句,因為我們只是範例,如有需要的讀者可再自行去錄音測試。
訓練完成後每個定型都會自動產生 100 個範例音訊檔案,用來測試模型,也可提供自己的測試腳本做為測試。測試腳本必須排除檔案名的識別碼。
7.部署模型
將模型部署為 REST API,輸入文字便回傳合成聲音的音訊內容。另外也可以透過 Python,Java 的 SDK 去進行呼叫。
三、總結
自訂神經語音無論是在客服或是智慧管家中,都具有明顯的效益。不過從以上步驟就可以知道 Azure 自訂神經語音的實作過程,相較於過往變得更加複雜,此篇有詳細說明過去自訂神經語音的操作流程。
AI 的興起創造出許多便利的應用,但也產生許多新興的犯罪型態,本篇所介紹的 TTS 技術也是被詐騙組織運用在社交工程上。可能也是因為如此,Azure對於自訂神經語音的限制也就變得更加複雜。所以該項服務最好還是與專業夥伴合作,審核有問題時也可以有與 Azure 有直接的溝通管道,如有需求讀者也歡迎來信諮詢。
試著將 Azure Speech Service 運用在企業環境裡,為品牌打造獨一無二的語音輸出吧!
Microsoft Azure 文字轉換語音 Text to Speech Voices (TTS)
教你如何用 Vertex AI 實現文本分類
發布日期 : 2023-01 | Jeff