様々な学科や出題形式がある上、実施前が「極秘」状態となることから、中国で特に権威のある試験と見られている全国統一大学入試の「高考」。人間が作ったこの難易度の高い総合的テストが今、大規模言語モデル(LLM)のレベルチェックの材料になっている。
上海の人工知能実験室の子会社である司南評価体系(OpenCompass)はこのほど、7種類のLLMに今回の入試の国語、数学、外国語を「受験」させ、6月19日にその結果を発表した。
これら3科目は合計420点満点で、テストではアリババの「通義千問・2-72B」が最高の303点を獲得し、次点がOpenAIの「GPT-4o」の296点、3位が人工知能実験室の「書生·浦語2.0」だった。この3種類はいずれも正答率が70%以上である。最下位はフランスのベンチャー企業「Mistral」であった。
テストに参加したのはアリババ、零一万物、智譜AI、上海人工知能実験室、フランスMistralのオープンモデル、OpenAIのサイクル型モデルGPT-4oである。実験室は、「ビジネスサイクル型については更新時期が不明なので、今回のテストは公平を期して対象外とし、GPT-4oのみを参考として使った」と表明している。これらの「受験生」はみな、「問題慣れ」を避けるために試験直前(2024年4月-6月)のオープン化となっている。
結果を見ると、国語や英語は好成績だったが、数学はどれも落第だった。数学については「書生·浦語2.0」が最高の75点で、2位が「GPT-4o」の73点だった。国語は「通義千問」が最高点、英語は「GPT-4o」が最高点だった。
今回の試験範囲は、全国新課程I卷の「英数国」全課程で、客観テスト、主観テストともに出題された。採点は実際の大学入試の採点経験のある教員が行い、採点基準がばらつかないようにLLMが回答したことは事前に知らせなかった。
採点者の評価として、国語については「読解力は、現代文はかなり好成績だったが古文はばらつきがあった。作文は記述問題のようであり、的を絞ってはいるが推敲が不十分で、例を挙げたり、論述を引用したり、有名人の言葉や人物を取り上げるなど、普通の受験生の答え方はほぼ見当たらなかった。LLMの多くは『本意』『比喩』『暗喩』といった概念がわかっていない。文中にある『隠された意味』はまるで無知だった」とのことである。
また数学については、主観問題については答えが無秩序である上、答えに至るプロセスも分かりにくく、プロセスは変だが答えは正しいというケースもあった。公式を覚える力は高いが、答えを導くまでのプロセスが柔軟に使えていないという。
英語は全般的に良かったが、出題形式に不慣れで、「7つのうちから5つを選べ」や連続穴埋めといった問題で正答率が低いものもあった。また英作文では、一般の受験生なら字数が足りず減点というケースが多いが、LLMは字数オーバーでの減点が目立った。
(中国経済新聞)