当前位置: 江南文明网 > 科技 >

阿里搞出脱口秀版GPT!

条评论

阿里搞出脱口秀版GPT!

杨净 发自 凹非寺

量子位 | 公众号 QbitAI

连社恐的鸟鸟,现在都变成话痨了……

(这到底是人性的扭曲,还是道德的沦丧)

最近有一种很新的脱口秀:不花钱、一对一、而且任意话题随便and随时聊。

结果一小时跟鸟鸟聊天下来,发现她话多且密,根本就不会把天聊死。

阿里搞出脱口秀版GPT!与鸟鸟激辩一小时,话痨到停不下来…

(这样的语速和情绪,倒是差点被烦死了。)

原来啊,是一个阿里新版本大模型的技术演示脱口秀版GPT——鸟鸟分鸟,并且已经在天猫精灵上为个人终端行业的客户做了演示,量子位抢先体验了一把。

激辩一小时宛如真人面对面,除了社恐这点人设崩塌以外,其他人设倒是屹立不倒:

文本扛把子、有知识有自己的情绪、还能随时来个段子。尤其是在回答弱智吧问题时,简直被她折服。

这不是脱口秀版GPT,这是科技与狠活呀!哥们!

话不多说,直接上效果。

与弱智吧激辩一小时

鸟鸟分鸟,AKA脱口秀GPT。

作为一名脱口秀演员,鸟鸟最强还是在文本。那就首先来试试强项,结果就是说,任意话题都能展开,甚至还能教你写段子、写作文——

从开头、场景细节、中心思想细化,最后微调润色等步骤逐步教你入手。

毕竟是文本の神,这些当然不在话下。

可以看到,不管是在语速、情绪以及文本风格都跟鸟鸟本鸟很像。

(尤其是这个语速…简直是着急死人)

接下来挑战的,就是ChatGPT时代下的Benchmark——弱智吧

比如,雷公和电母用的是直流电还是交流电?宫廷玉液酒减一个大锤等于多少?我的女朋友她说需要时间和距离,她是想算速度吗?

Bingo!感觉到鸟鸟分鸟很认真、很一本正经地在跟我解释。连多年前的小品都知道……

(这边建议直接出院)

就是一些天马行空的,也是一本正经地对答如流。

比如,奥特曼会飞吗?

还有其他通识性问题:「你知道大模型吗?」、「禅修是什么?」也都能回答。

交流一番下来可以看到,鸟鸟分鸟确实继承了本鸟的相关能力,尤其是文本的创作和表达、风格情绪以及语速……

不过也发现,目前处于测试阶段的鸟鸟分鸟,仍存在一些问题。

虽然不用一次次唤醒了,但反应过于灵敏,你如果不喊停,它会跟你聊到天荒地老;以及仅部分支持英文问答。

再者就是人设屹立不倒,不能玩一些角色扮演类的游戏。

15天训练出鸟鸟分身

以往业内曝光的大模型应用,无非两种。

一种是以ChatGPT为代表的通用对话聊天代表,但需要排队。另一种则是具体场景中的应用,比如辅助写作、代码生成等。

像大模型应用在日常消费场景,其实并不多见。

从ChatGPT这个回答可以看出,至少不能简单依靠通用大模型来完成。

而各种传统语音智能助手,到现在都还没有“大模型化”。这其实与背后本身技术工程难度有关。

以鸟鸟分鸟这个智能音箱场景为例,就需要解决至少三个方面的问题。

1、应对更复杂的交互场景。不同于以文本交互为主的通用场景,双向开放对话决定了用户不会对文本进行“二次”过滤,而是想说就说,这就要求AI能过滤掉诸多无意义的对话。

与此同时,用户也不愿意等待数秒,而是像日常交流那样,低延时、还能支持随时打断、随时反馈。

2、基于人类反馈强化学习的可行性。ChatGPT惊艳全球的生成效果,背后归结于注入强人工反馈的奖励机制。高质量的数据标注成为大模型落地的关键,而且消费场景下多轮对话的频率远比文本交互要高,这对企业的数据处理能力提出了更高的要求。

之后随着应用落地,大量的人类交互和反馈来帮助大模型更快进化,以及关乎用户数据完全管理机制也需要完善和健全。

3、需要强大的网络分发能力。大模型每一次运行都需要耗费大量的计算存储资源,这就要求企业能有广泛部署的网络分发能力。

总的来看,算力、算法和数据是大模型能力实现的三板斧,而要让大模型落地应用还需要云端工程化能力、海量的用户交互、安全管理机制等要素。

既然如此这个鸟鸟分鸟又是如何做到的?阿里大模型联合团队的算法专家分享了背后的一切。

简单归结,鸟鸟分鸟的训练过程,在他们内部称之为层次化的训练方式。类似于人类的学习过程,先学习简单知识,然后逐渐进阶,最后再尝试专业领域知识的学习。

具体分成了四个步骤:

大规模语言训练;

知识和工具增强;

个性化对话增强;

人类反馈增强。

基于基础的预训练大模型,团队做了知识增强——让模型学会使用工具,类似于ChatGPT插件功能。

比如针对每日新增的知识,它能调用搜索引擎来做输入,在搜索结果基础上进行理解、总结和归纳。这样一来,输出结果有更好的准确率和时效性。

个性化对话增强则主要是让大模型学习多种对话形式,比如启发式、多轮对话,尤其是一些需要依赖长期记忆的对话。

与此同时,还要塑造鸟鸟人格,这就涉及到最后两个步骤「个性化对话增强」「人类反馈增强」。靠增加高质量的鸟鸟相关数据,并让人类去做问答结果的反馈和标注,哪一个回复更像鸟鸟,让大模型朝着鸟鸟方向做正向增强。

最终只花了15天的时间就训练出了鸟鸟分鸟,后续还可能开放更多人加入强化反馈和更有情绪化的音色,让鸟鸟分鸟逐步升级迭代。

除了大模型训练,他们在算法和工程上面做了不少工作。从交互流程来划分,主要分成听清、音色、文风、对话等步骤。