4 月 29 日,Facebook AI 和机器学习部门 FAIR 发布博客宣布,经过多年研究,他们已近构建并开源了一个新的聊天机器人 Blender。
Blender 结合了多种对话技能,包括个性、知识和同理心,能够使 AI 更具人性化。
击败谷歌 Meena,更像人类
FAIR 声称 Blender 是 GitHub 上最大的开放域(Open-Domain)聊天机器人(开放域聊天机器人也成为闲聊机器人),其性能优于现有的生成对话的方式。
GitHub 上提供了经过预先训练和经过微调的 Blender 模型,基础模型包含多达 94 亿个参数,是谷歌对话模型 Meena 的 3.6 倍。
GitHub 地址:https://parl.ai/projects/blender/
Blender 会主动提起一些话题与人类互动
在谷歌于一月份推出 Meena 时,Google 称其为世界上最好的聊天机器人。
但在 Facebook 自己的测试中,有 75% 的人类评估者发现,Blender 比 Meena 更吸引人,还有 67% 的测试者认为,Blender 听起来更像人类。另外有 49 % 的人最初没有分辨出聊天机器人和真人。
和通常聊天机器人不同的地方在于, Blender 可以用有趣的方式谈论任何事情。它不仅可以帮助虚拟助手解决许多缺点,而且承诺在企业、工业或面向消费者的环境中,能够让对话式 AI 系统(如 Alexa,Siri 和 Cortana)与人类的交互比以往更加自然,能够提出并回答各种各样的问题。而且还会表达出同情、严肃等情绪。
对于这种结果,Google 尚未回应媒体的置评请求。
Blender 杀手锏:超大规模的训练数据
Blender 的能力,来自其训练数据的巨大规模。它使用了15 亿个公开 Reddit 对话进行训练。
然后,使用附加的数据集对其进行了微调,其中主要针对三个方面做了加强:
包含某种情绪的对话,以传授同理心(例如,如果用户说「我升职了」,它会回复说「恭喜!」);
与专家进行对话,通过巨大的信息量,交给模型一些知识;
和不同角色的人之间的对话,以培养其个性。
由于模型太过庞大,因此 Blender 必须运行在两个计算芯片上。
而上述方式保证了 Blender 拥有强大的交互能力。
94 亿参数的模型需要至少两个 32GB V100 GPU 进行交互
仍有不足:聊多了就露馅儿
尽管结果看起来很优秀,但是 Blender 的技能仍远没有人类的技能高。
到目前为止,团队仅在 14 个回合的简短对话中,对聊天机器人进行了评估 。研究人员称,如果聊天时间更长,或许聊天机器人的缺陷就会暴露出来。
简短的对话中,Blender 表现自然,几乎没有破绽(蓝色为机器人)
另一个问题在于,Blender 无法记住对话的历史,所以在多轮对话中,还是会显露出不足。
Blender 还倾向于知识化或整理事实,这是对用于构建知识的深度学习技术的直接限制。也就是说它最终是根据统计相关性,而不是知识数据库生成其句子的。
它可以将著名名人的详细而连贯的描述串在一起,但带有完全错误的信息。团队正计划尝试将知识数据库集成到聊天机器人的模型中。
下一步:防止机器人被教坏
任何开放式聊天机器人系统,都面临着一个挑战:如何防止其说出有恶意或偏见的话。由于此类系统最终在社交媒体上进行了训练,因此可能会学会网络上有恶意的语言。
比如 2016 年微软家被教坏的聊天机器人 Tay
团队试图通过要求众包人员从用于微调的三个数据集中,过滤出有害的语言来解决此问题,但由于 Reddit 数据集规模太大,这一任务很难完成。
团队还尝试使用更好的安全机制,包括可以对聊天机器人的响应进行双重检查的恶意语言分类器。
研究人员承认,这种方法并不全面,因为需要结合语境来看,比如,「是的,太好了」这样的句子看起来不错,但是在敏感的上下文中,例如对种族主义言论的回应中,它就是有害的回复。
从长远来看,Facebook AI 团队还对开发更复杂的对话代理感兴趣,这些代理可以响应视觉提示以及文字。例如,他们正进行一个项目,名为「图像聊天」的系统,该系统可以与用户可能发送的照片进行个性化的对话。
所以,未来有一天,可能你的智能语音助手真的不再只是一个工具,而可以成为一个暖心的陪伴。而 Siri 也不会再闹出让人哭笑不得的笑话。