韓国ネット大手カカオはこのほど、韓国語や韓国文化、場所に特化した独自のマルチモーダル言語モデル(MLLM)「カナナ-v(Kanana-v)」の性能と特徴を公式テックブログを通じて公開した。このモデルは、テキストや画像、音声といった複数のモダリティを統合的に処理する能力を持ち、韓国語理解においてOpenAIのGPT-4を上回る性能を示している。
カナナ-vは、韓国語の独自性や文化的な文脈を深く理解し、OCR(光学文字認識)、文書や表の理解、問題解決、韓国文化に関する知識の分野で高い性能を発揮する。カカオは、このモデルを多様な韓国語タスクをこなせるよう設計している。
特に画像内の文字を抽出するOCRでは、他のグローバルモデルに比べ圧倒的な性能を記録。これは韓国語に特化した調整と、画像をただ解析するだけでなく、内容を深く理解し創造的な文章を生成する能力が反映されている。
カナナ-vは、文書の要約、数学問題の推論、手書き文字の認識などの多岐にわたるタスクを処理できる。カカオは今後、正確な回答だけでなく、ユーザーの好みに合わせた応答生成やオンデバイス(端末内)環境での動作を目指してモデルのさらなる高度化を進める計画だ。
カカオは、画像やテキストだけでなく音声や映像も同時に処理できる統合マルチモーダル言語モデル「カナナ-o(Kanana-o)」の開発も進めている。10月に開催された開発者会議「if kakao AI 2024」では、カナナ-oが実際に音声でユーザーと自然な対話を交わすデモ映像が公開され、注目を集めた。
カナナモデルの研究を担当するチャ・ジュンボム研究員はテックブログで、「より多くのモダリティを扱うことで、AIが私たちの日常生活に実質的な助けを提供する真のパートナーになることを期待している」と述べた。
カカオは公式ブログを通じて、「カナナ」シリーズをはじめとする言語モデルやビジュアル生成モデルなどの性能と開発経緯を共有している。同社はAI技術を進化させることで、韓国特化型のAIソリューションを提供し、グローバルAI市場での競争力を強化する方針だ。
(c)news1