随着2024年全国高考的圆满落幕,上海人工智能实验室旗下的OpenCompass评测体系迅速响应,组织了一场别开生面的AI高考盛宴。七大国内外顶尖AI大模型被选为“考生”,在无差别的高考全科目测试中一展身手。近日,这场前所未有的“AI高考”成绩单揭晓,其中书生·浦语2.0的文曲星大语言模型、阿里通义千问大模型Qwen2-72B及GPT-4o凭借卓越表现,稳居前三甲,其文科成绩均超河南省一本线,理科亦稳坐二本线之上,展现了AI在特定领域的强大潜力。
语言类科目:AI的“甜蜜区”
测试中,AI考生们在语言类科目上大放异彩,尤其是英语和语文。英语科目中,GPT-4o以高分夺冠,其作文更获英语阅卷老师高度评价,虽因字数略少被微扣,但整体表现堪称“句型丰富,语言无瑕”。语文科目中,AI考生同样表现不俗,现代文阅读、古诗文理解、名句默写及作文均取得较高平均分,显示出AI在文本理解和生成方面的显著优势。
数理类科目:AI的“滑铁卢”
然而,当AI考生面对数学科目时,却遭遇了前所未有的挑战。几乎所有AI考生在数学新课标I卷上的得分均未过半,简答题更是成为难以逾越的障碍,平均得分率仅为18.9%。这一现象揭示了AI在逻辑推理和问题解决能力上的短板,尤其是在需要复杂计算和步骤推导的题目上,AI的“快系统”思维模式显得力不从心。
“快系统”与“慢系统”的较量
研究者指出,AI考生的偏科现象与其“快系统”思维模式密切相关。与人类的“慢系统”不同,AI更倾向于快速输出答案,缺乏像人类那样的草稿推理过程。这种差异导致AI在面对不确定性高的数理类题目时,一旦思路偏离便难以纠正,从而影响了整体成绩。
AI发展的新考卷
此次AI高考不仅是一次技术的展示,更是对AI未来发展方向的一次深刻反思。测试暴露了大模型在纠错能力、可信度及逻辑推理等方面的不足,为AI的后续发展指明了方向。上海人工智能实验室相关负责人表示,组织AI参加高考旨在评测其真实水平,找准问题所在,以推动技术的持续进步。未来,提升AI的纠错能力、减少“幻觉”现象,以及增强其在复杂逻辑推理上的能力,将是AI发展道路上的重要课题。
未经允许不得转载:AI教育新闻网 » AI高考初体验:语言类大放异彩,数理逻辑成挑战