「同じ点数でも実力は別」AIの数学力を“受験生の誤答率”で測る新指標…韓国の研究チームが公開

2026 年 6月 20日 (土)

人工知能（AI）の数学力を評価する際、単に何問正解したかを見るだけでは不十分だとする研究結果が出た。同じ点数を取ったAIモデルでも、人間も難しく感じた問題を間違えたのか、人間が簡単に解いた問題で予想外に誤答したのかによって、問題を解く方式が異なる可能性があるという分析だ。

情報技術（IT）業界によると、ネイバークラウドAIとKAIST AI所属の研究チームは最近、大学修学能力試験（修能）の数学問題と全国受験生の誤答率を活用してAI推論モデルを評価した論文「KCSAT-ML」を公開した。

研究チームは2014年から2025年までの修能数学問題664問を集めた。このうち339問には、実際の受験生が各問題をどれだけ間違えたかを示す公式誤答率も反映した。数十万人が受験した試験統計をAI評価に活用したことになる。

従来の数学評価用問題は、AIが正解したか、全体の正確度がどれほどかに主に焦点を当てていた。一方、今回の研究は問題ごとに実際の受験生の誤答率を付け、AIがどの問題で間違えるのかを調べた。

例えば、二つのAIモデルがいずれも10問中7問に正解したとしても、その意味は異なる可能性がある。一方のモデルは人間も多く間違えた難問で誤答し、もう一方のモデルは人間が簡単に正解した問題で間違えたなら、二つのモデルの実力を同じと見るのは難しい。

研究チームはこれを分析するため、AIの誤答が実際の受験生の誤答率とどの程度結び付いているかを見る新指標「難易度整列推論成果」（DRG、Difficulty-aligned Reasoning Gain）を提示した。

分析の結果、似た正答率を示したモデルでも、DRG値は大きく分かれる可能性があった。正確度だけを見ると似て見えるモデルでも、実際には互いに異なる問題で間違えている可能性があるという意味だ。

AIが答えを出す前に、より多くの演算資源を使う方式の効果も、問題の難易度によって異なった。研究チームは、人間が多く間違えた難問ではAIにより長く考えさせる方式が性能回復に役立った一方、比較的簡単な問題では、かえって複雑に考え過ぎて正解を逃すケースもあったと分析した。

これは、AI性能評価が単純な点数競争を超える必要があることを示している。現在、AIモデルは数学、コーディング、常識、言語など各種評価点数で比較される場合が多い。しかし点数が同じでも、どの問題を間違えたかによって、実際の活用における信頼度は変わり得る。

今回の研究は、韓国の修能データの活用可能性も示した。修能は毎年標準化された方式で実施され、問題別の受験者統計が蓄積されている。研究チームは、こうした統計がAIの数学問題解決能力をより細かく評価するのに使えるとみている。

業界では、AIが単純計算を超え、複雑な判断が必要な領域に活用されるだけに、評価方式も正答率中心から脱する必要があるとの指摘が出ている。特に教育、医療、金融のようにミスが大きな被害につながり得る分野では、AIが難しい問題を間違えるのか、簡単な問題で予想外のエラーを出すのかを区別する評価が重要になり得る。

研究チームは、正確度だけでは互いに異なる問題解決の様相を区別しにくいとし、修能のように実際の受験者統計がある試験データが、AI推論能力を評価する新たな基準として活用され得ると説明した。

(c)news1

Tags
main

「同じ点数でも実力は別」AIの数学力を“受験生の誤答率”で測る新指標…韓国の研究チームが公開

韓国発国際線の燃油サーチャージ、7月は20％超引き下げ…夏休み旅行の負担緩和

「ただの公費旅行だ」韓国選管に激しい非難…地方選の失態で再燃した“モルディブ7泊9日”の疑惑

97歳実母への暴行致死、60代息子に懲役14年求刑…韓国・釜山地裁

Most Popular

韓国発国際線の燃油サーチャージ、7月は20％超引き下げ…夏休み旅行の負担緩和

「ただの公費旅行だ」韓国選管に激しい非難…地方選の失態で再燃した“モルディブ7泊9日”の疑惑

97歳実母への暴行致死、60代息子に懲役14年求刑…韓国・釜山地裁

ABOUT US

CONTACT

FOLLOW US