当前位置: 江南文明网 > 科技 >

测试了9家大模型,做不出一道小学奥数题

条评论

测试了9家大模型,做不出一道小学奥数题

近日,百度、智谱、百川、字节、商汤、中科院(紫东太初)、MiniMax、上海人工智能实验室等8个企业/机构的大模型,通过了《生成式人工智能服务管理暂行办法》备案,这意味其可以正式上线面向公众提供服务。

一时间,科技界、创投圈、媒体、科技爱好者、测评博主等各行各业都在争相下载体验,毕竟国内大模型的风吹了大半年,但更多还是仅限内测,如今放开体验,可以说吊足了大家的胃口。

而经过实际体验,小饭桌发现,顶着“颠覆人类”、“能力优秀到可怕”等夸张光环的大模型,实际表现还相当粗糙。比如小饭桌选取了一道小学奥数题,当前获批的几家大模型没有一家能给出正确答案。更危险的信号是,各家大模型都对自己的答案“深信不疑”,甚至向小饭桌“一本正经”地阐述了错误的解题思路……

大模型的能力真如宣传中强大吗?号称决定人类未来的“AI大脑”,为何意识不到自己在“胡言乱语”?

借着国内大模型正式上线的契机,小饭桌选取了9家在业内极具代表性的大模型产品进行了测试,其中既包括百度字节跳动阿里等互联网大厂,也有科大讯飞昆仑万维等上市公司,还有国家队代表智谱AI,以及百川智能MiniMax等大模型头部创业公司。

为了确保评测结果更具说服力和全面性,小饭桌从逻辑性、相关性、真实性、多模态,以及生成速度五方面,对各家大模型进行了问答测评,并给出了测评分数。

以下是测评问题与测试结果(评分仅为小饭桌主观判断,不构成投资参考):

(每个问题总分 10 分)

· 逻辑性

1、彩虹岛上有不到100只独角兽,每只独角兽的颜色不是绿色就是黄色。 每当午夜钟声响起的时候,一些独角兽会改变颜色:昨天,黄色独角兽与绿色独角兽的数量之比为5:6;今天,黄色独角兽与绿色独角兽的数量之比为4:3。