
「科学技術の発展に対応し、人口の崖の時代を克服するためには、人工知能(AI)の信頼性確保が不可欠だ。そのため、我々はAI兵器体系の信頼性を確保するための新たな試験評価体制を開発している。AIは戦力化された後も継続的に学習し、性能が変化するため、従来の実物試験方式だけでは十分ではない」
韓国陸軍試験評価団中領のキム・ガンミン氏は6月4日、京畿道城南市で開かれた「2025 シュアAIテックカンファレンス」でこう述べた。この行事は、韓国のソフトウェア専門企業「SURESOFTTECH」がAIの信頼性と安全性のための試験評価の現状と未来を展望する目的で設けた。
キム・ガンミン氏はこの日の発表で、軍が独自に設計したAI試験評価手順、データセット運用構造、今後の推進計画などを紹介した。AI基盤の兵器体系の信頼性を確保するためには、従来の一過性の試験から脱却し、再現可能かつ定量的な評価体制への転換が必要だと強調した。
陸軍のAI試験評価手続きは、複数の段階で構成されている。まず、AIの性能評価用データセットを活用して基本的な性能を確認し、セキュリティ審査を終えた軍専用データを用いて追加で学習する。その後、実際の運用環境で収集したデータをもとに再度性能を評価する。
加えて陸軍は、収集したデータを学習用と検証用に分けて使用する。これはモデルの性能向上の有無を定量的に検証し、最後には全体の兵器体系を対象にシステムレベルの試験評価をするためだ。こうした手続きは、AIモデルがリアルタイムで変化する特性を反映するための構造となっている。
この過程で最も重要な核心は、試験評価専用データセットの品質だ。軍の作戦環境は民間とは異なり予測不可能で非定型的な場合が多く、一般的なデータでは実効性のある評価が困難だからだ。
キム・ガンミン氏は「我々は数十万枚分のデータをフレーム単位で精製した。この中の一部は評価用、残りの一部は学習用として構成した。多様な戦術環境、対象物の姿勢、服装、気象条件などを反映し、実戦に近い条件でAIの性能を評価できるよう支援しており、このデータセットは第三機関の検収を経て品質検証も完了している」と明らかにした。

AIデータセットの多様化と品質強化のための研究も並行して進められている。キム・ガンミン氏によると、陸軍は今後、生成型マルチモーダルAIとビジョン・ランゲージモデル(VLM)を組み合わせて、不足しているデータの種類を補完する方式を導入する。例えば、「昼間に歩いている一般兵士の映像は豊富だが、雪の降る夜に匍匐(ほふく)前進する兵士の映像は不足している」という品質評価の結果をプロンプトとして使用し、その条件を補完する合成データを生成する方針だ。
今年、試験評価団はAI兵器体系の性能評価を専担する組織を新設した。来年からは主要な戦力化事業にこの評価手続きを実戦適用する予定だ。
キム・ガンミン氏は発表の中で「AIの信頼性検証は単なる機能評価ではなく、作戦環境で実際に使用可能かを判断するための核心要件。AIは実物よりもデータに基づいて評価されるべきだという転換的な認識が必要だ」と強調した。
AIの強靭性評価体系についても具体的に紹介された。この体系は、AIモデルが敵対的な環境でも信頼できる性能を維持できるかをシナリオごとに検証し、今後はニューロン・カバレッジに基づく内部構造分析にまで拡大される。これは軽量化されたAIモデルがエッジデバイスで安定して作動しなければならないという軍の運用条件を反映した措置だ。
キム・ガンミン氏は「今は技術が概念を引っ張っていく時代だ。過去のように概念を先に立てて技術がそれに従うやり方では遅れる。AI兵器体系は実体のある武器ではなく、アルゴリズムによる武器であり、検証と信頼性確保の核心はデータと実戦環境だ」と述べた。
(c)KOREA WAVE