韓国電子通信研究院(ETRI)は韓国語を含む世界の主要な24の言語を認識して文字に変換できる対話型「音声認識人工知能(AI)」技術を開発した。技術性能はグーグルなどグローバル企業に比べて韓国語は優位を示し、他言語では対等なレベルだという。
ETRIは2018年平昌(ピョンチャン)冬季五輪公式自動通訳サービスに核心的な源泉技術を提供した研究機関だ。
既存の音声認識技術を開発するためには、大規模な学習データが必要であり、多言語拡張と音声認識性能の確保が容易ではなかった。また、従来しばしば活用されていた縦断型(End-to-End)音声認識技術はAI学習によっては応答速度が遅く、特定分野に適用しにくいという限界があった。
これに対し、ETRI研究チームは▽自己指導学習▽意思レベル(AI学習技術)適用▽大容量多言語事前学習モデル▽音声データのオーディオデータ生成(TTS)増強技術――などを通じて言語拡張の困難さを解決した。
ETRIは縦断型音声認識技術の遅い応答速度は推論技術を開発し、リアルタイム処理ができるように改善した。医療と法律、科学技術など専門分野に対する音声認識特化が容易になるように技術を作った。
©MONEYTODAY