,谷歌PaLM 2也被拉上溜了溜。然而,实测表现却让人大跌眼镜。
由UC伯克利主导的「LLM排位赛」又双叒更新了!
这次,最新榜单又迎来新的玩家,PaLM 2(也是就Bard)、Claude-instant-v1,MosaicML MPT-7B,以及Vicuna-7B。
值得一提的是,即便是平价版的Claude模型,Elo得分也赶超了ChatGPT。
但有一位选手的表现,却出乎意料得拉跨——谷歌PaLM 2屈居第六,排在了Vicunna-13B之后。
4月24日-5月22日数据
PaLM 2(Bard)排位大比拼
谷歌PaLM 2发布以来,根据论文的测试,其部分性能已经超过了GPT-4。
而它的具体表现如何?
来自LMSYS Org的研究人员通过Google Cloud Vertex AI的API接口,将PaLM 2添加到Chatbot Arena,并以代码名为chat-bison@001进行聊天调优。
在过去的两周,PaLM 2已经与16个聊天机器人,进行了大约1800次的匿名比拼,目前排名第六。
从排行榜中可以看出,PaLM 2的排名高于所有其他开源聊天机器人,除了Vicuna-13B。