五大模型解高考数学：阿里通义千问、360智脑10题全错得0分；讯飞星火答对一半

2023-06-08 23:22:21 出处：搜狐科技

一年一度高考季，高考试题是大众关注的焦点，也成为了AI能力的试金石。AI大模型数学功底到底如何？比人类“聪明”吗？搜狐科技使用五款AI大模型对2023高考上海数学试卷进行了同题测试。

在测试中，搜狐科技选取了高考试卷前10道填空题，让百度文心一言、阿里通义千问、科大讯飞星火认知大模型、360智脑、ChatGPT进行回答。

(相关资料图)

测试结果显示，这五款大模型在答数学题的能力上差异显著。

最“聪明”的讯飞星火答对了5题，正确率50％。百度文心一言和ChatGPT“紧跟其后”，答对了4题，正确率为40％。

360智脑和通义千问则“全军覆没”，一道题也没答对，交了白卷。

值得一提的是，昨天搜狐科技也用五款大语言模型产品，对高考作文全国卷（甲）进行了测试，并邀请了5位语文名师打分。

打分结果显示，ChatGPT高考作文得分最高，文心一言、讯飞星火得分稍低，但跟ChatGPT处于同一水平。360智脑和通义千问得分最低。

虽然语文作文题和数学计算题，对大模型能力考察的维度并不尽相同。但巧合的是，不擅长写作文的360智脑和通义千问，似乎也不擅长做数学题。

通过这两次高考题测试，也能从侧面反应出各家大模型的能力确实是“参差不齐”。如果ChatGPT、文心一言、讯飞星火是“学霸”，那么360智脑和通义千问则是妥妥的“学渣”。

附测试中使用的高考数学题题目：

1.不等式|x-2|<1的解集为__

2.a=(2,3)，b=(-1,2)，则a·b=__

3.首项为3，公比为2的等比数列的前六项和S6=__

4.tanA=3，tan2A=__

5.f(x)={2^xx>0;1，x≤0}的值域为__

6.复数z=1-i，则|1+iz|=__

7.圆的方程x^2+y^2-4y-m=0的面积为π，则m=__

8.三角形的三边长为a=4，b=5，c=6，则sinA=__

9.某地一年四个季度的GDP(亿元)，第一季度GDP为232，第四季度GDP为241，且四个季度的GDP逐季度增长，中位数、平均数相等。则该地一年的GDP为__

10.(1+2023x)^100+(2023-x)^100=a0+a1x+a2x^2+…+a100x^100。若ak<0，正数k的最大值为__

责任编辑：

关键词：

理财更多>>

投资更多>>

论坛更多>>

世界视点！血鸢泪龙心心血鸢泪 1、是《血鸢泪》吗高贵如她，奈何一朝成为亡国奴。2、为了复仇，漫天的

上市公司更多>>

华是科技：6月7日公司高管温志伟减持公司股份合计20万股 证券之星讯，根据6月8日市场公开信息、上市公司公告及交易所披露数据整

消费

产业

看东南大学王炜如何合理规划自行车停车问题 在中国，基于可持续发展政策的推行，自行车成为了许多人喜爱的交通工具。而随着自行车

健康又清爽，瑞幸咖啡抓马西瓜拿铁、葡萄冰萃美式一杯开启冰爽夏日 五月已过，炎炎夏日即将到来，喜爱咖啡的朋友，快来开启痛饮冰咖的快乐时刻！清甜馥郁

鲜活美味再获认证！君乐宝悦鲜活狂揽iSEE全球食品创新奖两项大奖 5月14日，食品行业内颇受认可的iSEE全球食品创新奖第五届颁奖典礼在上海举行。君乐宝

最新血脂管理指南发布!心血管健康专家西班牙波利王教你如何科学合理降血脂 近期，《中国血脂管理指南(2023)》(以下简称《指南》)全新发布。《指南》显示，我国血

基金

一招短线选股法是什么意思？尾盘买入法的好处有哪些？拉尾盘什么意思？ 尾盘买入法：属于短线的操作，今天买了，明天就有机会卖的。每天下午14:30分的时候有