2026 年 6月 19日 (金)
ホーム経済IT/メタバースAIロボットの性能を丸裸にする「共通テスト」誕生へ…韓国スタートアップが挑む評価革命

AIロボットの性能を丸裸にする「共通テスト」誕生へ…韓国スタートアップが挑む評価革命

リアルワールドのリュ・ジュンヒ代表=リアルワールド提供(c)news1

「同じロボットでも、どの人工知能(AI)モデルを載せるかによって性能は完全に変わります。それにもかかわらず『誰がよりうまいのか』を客観的に比較する基準がないことが、現在のロボティクス業界の最大のボトルネックです」

ロボット向け人工知能(AI)を手がける韓国のスタートアップ「リアルワールド(RLWRLD)」のリュ・ジュンヒ代表は「数十のヒューマノイドロボット企業がいずれも『自分たちが最も優れている』と主張しているが、客観的な比較は不可能な状況だ」と指摘した。

ロボティクスやヒューマノイド企業が急増する中、問題はさらに浮き彫りになっている。「A社が成功率90%を掲げても、B社と同じ条件なのか分からない。測定環境、タスク定義、データ形式がすべてばらばらだからだ」。リュ・ジュンヒ代表はこう指摘する。

投資家もメーカーも客観的な判断基準がないため意思決定が遅れ、モデル導入も遅れている。デクステリティー(精密操作能力)標準の不在を急ぐべきだ――リュ・ジュンヒ代表がこんな課題を挙げた。

リアルワールドは解決策として、産業現場に基づく評価体系「デックスベンチ」を提示した。デックスベンチは米エヌビディアと協力して推進中の、ヒューマノイドの手の技術、つまり精密操作性能の標準ベンチマークだ。実際の工場や物流現場で観察された作業を基に設計された。

「研究上の利便性ではなく、実際の工場と物流現場で観察された操作作業を基に、5つの評価領域と18の重点タスクを定義した。各社が最高だと主張する問題を解決するための出発点だ」

データ構造は4Dプラスのモーションキャプチャーに基づくマルチモーダル方式だ。指関節の3次元位置と方向、接触力、視覚情報、時間軸を統合する。リュ・ジュンヒ代表は、この構造がエヌビディアのアイザック・ラボのパイプラインと互換性を確保するため、共同設計に入っていると説明した。

デックスベンチは、アイザックのGPU基盤シミュレーション環境で標準タスクを実行すれば、実際のロボットなしでも数千の条件で性能を検証できる。カギは結果を他企業と直接比較できる点。費用と時間の制約なしに反復検証が可能な構造で、データ生成、学習、検証までを一つの流れでつなぐことが目標だ――リュ・ジュンヒ代表はこう語った。

こうした接近法は、大規模言語モデル(LLM)生態系のベンチマーク事例とも重なる。リュ・ジュンヒ代表は「MMLUやHumanEvalのようなベンチマークがAIの発展を加速させたように、ロボティクスにも同じ基準が必要な時期だ」と強調した。

(c)news1

RELATED ARTICLES

Most Popular