研究成果報捷!LINE 於音訊音頻信號處理領域發表的7篇論文 獲 IEEE ICASSP 國際會議採納

2021.03.04 Technology

LINE 近日於音訊和音頻信號處理領域發表的7篇論文,榮獲該領域學術地位最高的聲學、語音和信號處理國際會議(ICASSP)的採納。本次獲採納的論文包含與 LINE 母公司 NAVER 2共同研究,總共高達14篇。其中,關於達成語音合成品質改善及語音辨識率的研究更獲得了大會讚許。

ICASSP英文全稱International Conference on Acoustics, Speech and Signal Processing)即聲學,語音和信號處理國際會議IEEE Institute of Electrical and Electronics Engineers,電機電子工程師學會)主辦,在信號處理及應用領域全球歷史悠久且最具規模和權威國際旗艦會議ICASSP 將於今6月在線上召開46會議(ICASSP 2021),本次共有3,600篇投稿,其中有1,700篇論文被採納,届時將同步線上發表。

 

LINE 致力於語音合成技術、音源分離技術、環境音識別技術開發,將其作為音訊音頻信號處理領域的基礎研究

AI 技術是 LINE 的重點發展事業,為了加速 AI 技術的研究開發及應用,LINE NAVER 聯手整合資源,全力推進 AI 相關服務及新功能的基礎研究。在此背景下,團隊在資料平台開發、資料分析、機器學習、AI 技術開發、基礎研究等面向皆展開了跨領域合作,讓技術加速朝向商業化應用。

在基礎研究方面,LINE 以機器學習為主軸,致力於音訊處理、語言處理、圖像處理等技術的研究。而在音訊音頻信號處理領域上的各項研究,包括採用 Parallel WaveGAN 的高速高品質語音合成技術,有效分離雜音以提升音訊品質及語音辨識率的音源分離技術,還有可自動檢測辨識聲音的環境音識別技術。

 

LINE 關於改善語音合成品質、提升語音辨識率的研究獲讚許和採用

語音合成相關部分,在採用生成對抗網路(Generative Adversarial Network / GAN)*1的非自回歸型語音合成模型 *2 Parallel WaveGAN 上,採納了利用濁音/清音的資訊改良識別器的研究。過去採用單一識別器的 Parallel WaveGAN,由於識別器表現力有限以及學習的困難,尤其是使用複數通話者語音資料庫時,會有品質劣化的問題。依提案方法,著眼於濁音和清音的性質差異,設計符合各自性質的識別器,大幅改善了語音合成的品質。雖然是逐次的研究,仍採用總計四名男女的說話者,進行大規模的主觀評價實驗以驗證提案方法的有效性,因此受到肯定而獲採納。 

另外,關於音源分離的部分,提出不採用深度學習的音源分離方式的 ISS (Iterative Source Steering)法,同時採用深度學習的音源模型的推定法,以兩者相互組合的新作法,讓語言辨識率提升更優於過去的 ISS 法,此方式因為不用依賴音源數的可適用框架構造而受到好評並獲採納。 

*1 是非監督式學習的一種方法,由一個生成網路與一個判別網路組成。生成網路從潛在空間(latent space)中隨機取樣作為輸入。判別網路將生成網路的輸出從真實樣本中盡可能分辨出來。兩個網路相互對抗、不斷調整參數,產生新的模擬數據。

*2 此模組可以即時即刻產出獨立且不同於之前有過的語言,且能並行處理,計算效益高。

 

LINE 將持續推動 AI 技術相關的基礎研究,提升既有服務價值

LINEAI 科技品牌「LINE CLOVA」,致力發展各項AI技術和服務以解決生活及商業中的大小難題,並提升社會機能與生活品質。此外, LINE CLOVA 還提供以 CLOVA Speech 語音辨識、CLOVA Voice 語音合成等開發的語音技術企業解決方案。 

AI 客服訂位應用「LINE AiCall」,組合了 CLOVA SpeechCLOVA Voice 以及對話控制的架構,使 AI機器人能夠用自然語言與客戶互動,可有效地解決人手不足問題,現已應用於行政單位與餐飲店家中。此外,去年發表的紀錄和管理應用程式「CLOVA Note」有精確的辨識度,因為是來自於大量時間錄音解析所產生的模型。

LINE 將持續積極發展 AI 技術,無論在技術或服務上,都將努力推陳出新,實現在基礎研究和服務價值上的顛覆性進

 

附件:

本屆LINE被採納的7篇論文如下:

 ● PARALLEL WAVEFORM SYNTHESIS BASED ON GENERATIVE ADVERSARIAL NETWORKS WITH VOICING-AWARE CONDITIONAL DISCRIMINATORS

R. Yamamoto, E. Song, M. Hwang, and J. Kim

 ● TTS-BY-TTS: TTS-DRIVEN DATA AUGMENTATION FOR FAST AND HIGH-QUALITY SPEECH SYNTHESIS

M. Hwang, R. Yamamoto, E. Song, and J. Kim

 ● END TO END LEARNING FOR CONVOLUTIVE MULTI-CHANNEL WIENER FILTERING

M. Togami

 ● DISENTANGLED SPEAKER AND LANGUAGE REPRESENTATIONS USING MUTUAL INFORMATION MINIMIZATION AND DOMAIN ADAPTATION FOR CROSS-LINGUAL TTS
D. Xin, T. Komatsu, S. Takamichi, H. Saruwatari

 ● SURROGATE SOURCE MODEL LEARNING FOR DETERMINED SOURCE SEPARATION
R. Scheibler, M. Togami

 ● REFINEMENT OF DIRECTION OF ARRIVAL ESTIMATORS BY MAJORIZATION-MINIMIZATION OPTIMIZATION ON THE ARRAY MANIFOLD

R. Scheibler, M. Togami

 ● JOINT DEREVERBERATION AND SEPARATION WITH ITERATIVE SOURCE STEERING

T. Nakashima, R. Scheibler, M. Togami, N. Ono