韓国ネイバー、画像・音声AI技術を「慎重に高度化」

2024 年 8月 27日 (火)

韓国の大手インターネット企業ネイバーは、画像分析と音声生成の人工知能（AI）技術を公開し、マルチモーダル（Multimodal）AIサービスの分野でさらに進化する計画を発表した。ネイバーはオープンAIやグーグルに遅れを取っているが、慎重にAI技術の開発を進めている。

ネイバーは23日、サービスアップデート（27日）で対話型AIエージェント「Clova X」に視覚情報処理機能を新たに追加すると発表した。このアップデートにより、ユーザーはClova Xのチャット画面に画像をアップロードし、画像から抽出された情報を基にAIとの会話が可能になる。

具体的には、Clova Xは写真の中の現象を説明し、写真を見ながら新しい創作もできる。例えば、図形を含んだ数学問題の画像を入力すると、問題を解き、解答を提供する。また、ネイバーは動画を視覚的に理解し、AIとの対話が可能な技術も研究しており、将来的には1時間以上の映画をAIが理解することも目指している。

さらに、ネイバーは超巨大言語モデル「HyperClova X」に基づいた音声AI技術「Speech X」（仮称）も公開した。これは従来の音声認識や音声合成技術をさらに発展させたもので、1～2秒の声のデータから音声を生成し、会話を続けることが可能である。この「1～2秒」という時間は、グローバル基準でも最短の水準とされている。

ネイバーはこのSpeech Xを基盤に、グーグルの音声AIアシスタント「ジェミニライブ」のようなサービスの提供を計画している。ジェミニライブは、どこでも音声で質問に答えたり、スケジュールを管理したりすることができる技術だ。

一方で、ネイバーはまだ画像生成や動画制作のサービスは公開していない。技術開発は進められているが、ディープフェイクなどの悪用のリスクを懸念しているためだ。実際、グーグルは画像生成機能を公開したものの、歴史的な人物の画像を誤って生成するなどのエラーが発生し、20日後にサービスを中止した経緯がある。

音声合成技術についても、セレブや政治家の声を模倣した犯罪への懸念があり、慎重な検討が続けられている。ネイバーは既にグローバル基準の音声合成技術を開発しているが、どのサービスにどのように適用するかはまだ決まっていない。

ネイバーの関係者は「技術が悪用される恐れがあるため、技術的な完成度を高めてからサービスを公開するのが適切だと考えている」と述べ、技術の更新は慎重に進めると強調した。また「Clova XはAIアシスタントサービスとしてのアイデンティティを持ち、継続的にアップデートする」と伝えた。

(c)news1

Tags
main

韓国ネイバー、画像・音声AI技術を「慎重に高度化」

「開店前はトイレもダメ？」人気店の対応に賛否…韓国「外で待て」と拒絶された高齢の父

韓国・光州で暴走族を検挙…パトカー2台で包囲、未明の市街地で摘発

「夫の子を妊娠した」バイト女性が自宅急襲…韓国・「あなたの子も私が育てる」離婚を迫る不倫相手の執着

Most Popular

「開店前はトイレもダメ？」人気店の対応に賛否…韓国「外で待て」と拒絶された高齢の父

韓国・光州で暴走族を検挙…パトカー2台で包囲、未明の市街地で摘発

「夫の子を妊娠した」バイト女性が自宅急襲…韓国・「あなたの子も私が育てる」離婚を迫る不倫相手の執着

ABOUT US

CONTACT

FOLLOW US