当前位置: 江南文明网 > 科技 > 智能 >

ChatGPT 开始入侵物理世界

条评论

ChatGPT 开始入侵物理世界

6min read

长了眼睛和嘴,ChatGPT 开始入侵物理世界

OpenAI,又悄咪咪地放大招了。

当地时间 9 月 25 日,OpenAI 在官网更新博客,宣布 ChatGPT 已经具备看、听、说的能力。这是 GPT-4 大型语言模型推出以来最大的一次功能更新。从官方放出的应用案例来看,通过手机摄像头和麦克风,ChatGPT 现在已经能帮助人们解决实际问题。例如用手机拍一下共享单车的照片,并且询问人工智能助手如何调节座椅,ChatGPT 就可以看懂图片,并且给出相应步骤。随着技术的快速迭代,生成式 AI 竞赛正在进入了一个全新的阶段——多模态之争。在这个阶段,各大科技公司纷纷推出了一系列新产品和功能,通过人工智能技术打破传统搜索引擎和聊天机器人的局限性的同时,也为用户带来更加丰富和精准的交互体验。那么,「升级」了的 ChatGPT,是否能成为「贾维斯」一样的AI助理,帮助人们打点生活了而 OpenAI 又是怎么做到的?

01

ChatGPT

长了眼睛和嘴巴

生成式 AI 竞赛的下一个阶段正在来临——多模态之争。最近,Meta 推出了 AudioCraft,用于通过 AI 生成音乐;谷歌 Bard 和微软 Bing 的聊天体验也已部署了多模态功能;亚马逊也在借助 LLM 的力量来增强其 Alexa 数字助理(为 Echo 系列智能设备提供支持)的功能,9 月 25 日刚刚宣布斥资 40 亿美元投资 OpenAI 的竞争对手 Anthropic,后者是 Claude 2 聊天机器人的制造商;苹果也在试验通过 AI 生成语音,即 Personal Voice。而在上周发布支持文本和排版生成的最新图像生成模型 DALL-E 3 之后,当地时间周一晚,OpenAI 发布了《ChatGPT 现在能看、能听、能说了》的公告,宣布对 ChatGPT 进行重大更新,使其 GPT-3.5 和 GPT-4 人工智能模型能够分析图像,并作为文本对话的一部分对图像做出反应。此外,ChatGPT 移动应用程序还将增加语音合成选项,与现有的语音识别功能搭配使用时,将实现与人工智能助手的完全语言对话。根据官网,ChatGPT 现在已经具备了如下功能:

语音功能

OpenAI 在公告中称语音功能由一个新的文本转语音模型(text to speech)驱动,只需要文本和几秒的语音样本就可以生成类似人声的音频。一方面,OpenAI 与专业配音演员合作创建了语音条,另一方面,OpenAI 还使用了自己开源的语音识别系统 Whisper,可以将用户的语音转录为文字。ChatGPT 已经有了语音交互能力|OpenAI该功能推出后,用户可以在应用的设置中选择语音对话,然后从「Juniper」、「Sky」、「Cove」、「Ember」和「Breeze」等五种不同的合成声音中选择一个,说出他们想要的内容,机器人就会使用所选的语音提供答案。例如,人们可以询问睡前故事,或者就餐桌上正在进行的谈话提出问题。不过,语音对话功能的使用可能面临有一些限制。OpenAI 表示,该模型在转录英文文本方面表现出色,但在一些其他语言,特别是使用非罗马字母的语言中表现不佳。因此,建议非英语用户使用 ChatGPT 来进行此类用途时要慎重。