OpenAI的最新模型提供了更像人类的对话体验。图片来源:JIYI Image / Alamy
5月13日,美国OpenAI公司公布了最新的人工智能模型GPT-4o,该模型通过语音模式可以为ChatGPT提供更多类人的互动。升级后的ChatGPT能够实时进行包含文本、音频和视频的对话,同时说话时使用的语调和措辞还能传达出强烈的情感和个性。
在当天的现场演示中,OpenAI展示了最新语音模式的情感模拟,其中包括ChatGPT移动应用程序和新的桌面应用程序。这款新型人工智能的对话能力似乎更接近2013年的科幻电影《她》中Scarlett Johansson配音的人工智能,而不是由语音助理技术生成的更为刻板和机器人化的反应。
美国加州大学戴维斯分校的Michelle Cohn说:“新的GPT-4o语音交互与人类的互动更为相似,首先是延迟时间短,其次是声音能够产生情感表达。”
在演示中,当OpenAI的Mark Chen说话呼吸急促时,GPT-4o驱动的ChatGPT会建议他做呼吸练习,并风趣地说:“哇,慢点,你又不是吸尘器。”而当它看到OpenAI的Barret Zoph绘制的一幅包含文字和一颗心的画作时,则会用激动的语气说:“我看到你写了‘我喜欢ChatGPT’,你太贴心了。”
新的ChatGPT还口头指导其对话伙伴求解一个简单的线性方程,并解释了计算机代码的功能以及一张显示夏季气温峰值的图表。经过提示,它甚至会多次复述自己编造的睡前故事,同时在越来越戏剧化的叙述和演唱之间切换。
OpenAI首席执行官兼联合创始人Sam Altman表示,新的语音模式将在未来几周内首次向ChatGPT Plus的付费用户开放。
但OpenAI首席技术官Mira Murati承认,由GPT-4o驱动的ChatGPT的升级版本,在整合和解释实时信息的方式上存在新的安全风险,OpenAI正致力于建立“防止滥用的缓解措施”。该公司表示,新版本最终将会提供给ChatGPT的免费用户。
“人工智能进行无缝的多模式对话真的很困难,所以此次演示令人印象深刻。”美国普林斯顿大学的Peter Henderson说,“但随着添加更多的模式,安全变得更加困难和重要,识别潜在的安全故障模式可能还需要一些时间。”
Henderson表示,一旦ChatGPT用户开始共享实时音频和视频输入,他就会对OpenAI的隐私条款感到“好奇”,而免费用户是否可以选择退出可能用于训练未来OpenAI模型的数据收集也不得而知。
此外,一个更拟人化的人工智能聊天机器人也代表着另一种威胁。根据Cohn和同事的研究,一个可以通过语音对话假装同理心的机器人可能听起来更具个性和说服力。这增加了人们更倾向于信任大语言模型产生的潜在不准确信息和刻板印象的风险。(记者 李木子)
相关人物