
生成AIが大学生のエッセーを採点した場合、人間の評価と一致する割合は半分程度にとどまる。特にAIは学問的な深さより、文の構造や語彙の水準により敏感に反応する――こんな分析が出た。
英ケンブリッジ大学が主導した研究チームは、英国の3大学の心理学部生が提出したエッセー761本を対象に、ChatGPT-5.4、Claude Opus 4.6、Gemini 3 Flashの3種類のAIを使って採点した。
研究の結果、AIが人間の評価者による学位等級と一致した割合は、ケンブリッジ大学で63%、ノッティンガム大学で53%、マンチェスター・メトロポリタン大学で35%だった。
研究チームは、AIの採点結果が人間の採点結果と差を見せた理由の一つとして、AIが統計的予測に基づいている点を挙げた。
研究チームによると、人間が75点を付けたエッセーは、すべてのAIシステムで平均的に数点低く評価され、50点のエッセーは数点高く評価された。AIは優秀なエッセーを相対的に低く、低い点数を受けたエッセーを実際より高く評価し、「中間点」に合わせようとする傾向を見せたという。
研究に参加したケンブリッジ技術人文研究所のアレクサンドル・マルコチ博士は「AIはすべての提出物に中間点を付け、最も優秀なエッセーと最も出来の悪いエッセーを特に不正確に採点する結果を招く」と述べた。
マルコチ博士は「こうした偏りの結果、最優秀と上位等級を区別したり、合格と不合格を分ける境界線で正確度が低下する」とも述べた。
また研究チームは、AIがエッセーの学問的完成度より言語的特徴により注目する傾向を見せたと分析した。AIは論理性、批判的思考、学問的深さなど、人間の評価者が重視する要素を判断するうえで限界を示し、複雑な文構造や難しい語彙などに応じて、より高い点数を付けたという。
研究チームは現段階で、AIが学部生のエッセー課題を採点するには能力が不足し、一貫性も低いとして、人間が必ず最終的に採点すべきだと助言した。
ケンブリッジ大学の心理学者デボラ・タルミ博士は次のように警告した。
「AIモデルに過度に依存すれば、学生の成績が画一化され、才能を過小評価することになる。また、健全な学問的判断より言語的スタイルを優先することになる。評価は単に点数を付けるシステムではない。これを通じて学生は認められ、教育基準が維持される。人工知能を評価に活用することは、こうした価値を脅かす」【news1 ナ・ヨンジュン記者】
(c)news1