AI高考初体验：语言类大放异彩，数理逻辑成挑战-AI教育新闻网

随着2024年全国高考的圆满落幕，上海人工智能实验室旗下的OpenCompass评测体系迅速响应，组织了一场别开生面的AI高考盛宴。七大国内外顶尖AI大模型被选为“考生”，在无差别的高考全科目测试中一展身手。近日，这场前所未有的“AI高考”成绩单揭晓，其中书生·浦语2.0的文曲星大语言模型、阿里通义千问大模型Qwen2-72B及GPT-4o凭借卓越表现，稳居前三甲，其文科成绩均超河南省一本线，理科亦稳坐二本线之上，展现了AI在特定领域的强大潜力。

语言类科目：AI的“甜蜜区”

测试中，AI考生们在语言类科目上大放异彩，尤其是英语和语文。英语科目中，GPT-4o以高分夺冠，其作文更获英语阅卷老师高度评价，虽因字数略少被微扣，但整体表现堪称“句型丰富，语言无瑕”。语文科目中，AI考生同样表现不俗，现代文阅读、古诗文理解、名句默写及作文均取得较高平均分，显示出AI在文本理解和生成方面的显著优势。

数理类科目：AI的“滑铁卢”

然而，当AI考生面对数学科目时，却遭遇了前所未有的挑战。几乎所有AI考生在数学新课标I卷上的得分均未过半，简答题更是成为难以逾越的障碍，平均得分率仅为18.9%。这一现象揭示了AI在逻辑推理和问题解决能力上的短板，尤其是在需要复杂计算和步骤推导的题目上，AI的“快系统”思维模式显得力不从心。

“快系统”与“慢系统”的较量

研究者指出，AI考生的偏科现象与其“快系统”思维模式密切相关。与人类的“慢系统”不同，AI更倾向于快速输出答案，缺乏像人类那样的草稿推理过程。这种差异导致AI在面对不确定性高的数理类题目时，一旦思路偏离便难以纠正，从而影响了整体成绩。

AI发展的新考卷

此次AI高考不仅是一次技术的展示，更是对AI未来发展方向的一次深刻反思。测试暴露了大模型在纠错能力、可信度及逻辑推理等方面的不足，为AI的后续发展指明了方向。上海人工智能实验室相关负责人表示，组织AI参加高考旨在评测其真实水平，找准问题所在，以推动技术的持续进步。未来，提升AI的纠错能力、减少“幻觉”现象，以及增强其在复杂逻辑推理上的能力，将是AI发展道路上的重要课题。

未经允许不得转载：AI教育新闻网 » AI高考初体验：语言类大放异彩，数理逻辑成挑战

一	二	三	四	五	六	日
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

相关推荐