当OpenAI在2022年11月下旬低调推出ChatGPT时,这家总部位于旧金山的非盈利公司对于自己的产品几乎没有抱什么期望。
研究团队承认他们在这些模型上花了太多时间,但同时认为ChatGPT内部的大多数技术都不是新的。他们现在仍然困惑于:究竟是什么推动了ChatGPT病毒式传播?
OpenAI研究ChatGPT的科学家利亚姆•费杜斯(Liam Fedus)表示:“我们不想把它夸大为一个重大的根本性进步。”
虽然OpenAI内部没有人对其巨大成功做好准备,但他们现在已经努力追赶,暨开源之后,又在3月14日推出了GPT-4,脱胎为一个真正为盈利而做好准备的人工智能公司。
那么GPT-4究竟有什么不一样呢?
一、精心挑选的合作伙伴与应用场景
(一)GPT-4理解图像的能力惊人——为视力障碍者服务的场景
这个多功能机器学习系统最显著的变化是它是“多模态”。ChatGPT 和 GPT-3 仅限于文本,但GPT-4 可以“理解”图像——它不仅能够处理这些图像以查找相关信息,更重要的是,它在客观描述中能够某种程度上加入些“情绪”价值。例如,理解下图为什么好笑。
图片来源:Reddit
这不但赋予GPT-4更“类人”的属性,而且OpenAI与 Be My Eyes 的合作伙伴关系展示了更有意义应用场景。
Be My Eyes 是一款免费的移动应用程序。在与OpenAI合作之前,为了使让盲人和低视力人群更容易接触到这个世界,他们在全球招募了600多万志愿者使用180种语言来帮助这个群体。然而,OpenAI的GPT-4加入后就成为一名Be My Eyes全年无休的虚拟志愿者,用户可以随时通过该应用程序将图像发送给这位“志愿者”,该志愿者将为用户提供即时识别、解释和对话式视觉帮助。
在 Be My Eyes 的视频中,GPT-4 帮助视力障碍者挑选裙子、识别植物、解释如何使用健身房的某台机器、翻译标签并提供食谱、阅读地图等等,表明它确实了解图像中的内容,而且确实成为了“有价值的帮助者”。
据悉,Be My Eyes目前是唯一一个可以使用 GPT-4 的图像分析功能的合作伙伴,这也是OpenAI“精心评估和挑选”的结果,这一“公益性质”的项目将为其提供极大声誉和更小的风险。
这印证了OpenAI 的联合创始人兼总裁 Greg Brockman所说的话,无论何时进行更广泛的推广,都将是“缓慢而有意的(intentional)”。
图片来源:Be My Eyes官方视频截图“露西·爱德华兹介绍虚拟志愿者”
(二)GPT-4有更长的记忆力——摩根士丹利的商业应用
大型语言模型一般都需要在数以百万计的网页、书籍和其他文本数据上进行了训练,但当它们真正与用户进行对话时,它们可以“记住”多少是有限的。GPT-3.5 和 ChatGPT 的限制是大约 8,000 个单词,或大约四到五页的书。
GPT-4 的最大输入量大约 64,000 个单词或 50 页的文字,足以写成一出完整的戏剧或短篇小说,这就允许用户使用长格式内容创建、扩展对话以及文档搜索和分析等用例。在GPT -4的论文中的举例来看,只需要丢给它一个链接,就可以帮你总结出其中的内容。