月 13 日上午 10 点 ,OpenAI 的 CTO Mira Murati 在三十分钟不到的时间里,用一场短的春季发布会,给了大伙们秀了一波 OpenAI 的新肌肉。
说实话,看得还有点让人意犹未尽,因为这 AI ,好像成精了。
这场发布会主要有四个部分,分别是桌面端 App 的更新、 WebUI 的更新、GPT-4o 模型的发布、实时 AI 助手的功能演示。
而其中最重磅、最核心的,无疑就是 GPT-4o 这个新模型。
根据 Mira Murati 的说法,OpenAI 的愿景是 AI 的便利能福泽所有人类,所以新的 GPT-4o 模型会向大伙们免费开放使用,付费用户呢,则在使用次数上比免费用户多 5 倍。( 官方指出,当使用次数达到上限时,免费用户会被强制退回到 GPT-3.5 版本。这应该是出于成本考量。 )
而相比于上一代的 GPT-4 Turbo,GPT-4o API 的速度快了 2 倍、费用便宜了 50%、速率限制上,也比前者高了 5 倍。
当然,如果只是这些性能上的“ 略微提升 ”,那就对不起 OpenAI 在 AI 领域话事人的地位了。
实际上,根据 OpenAI 官网的介绍,GPT-4o 中的 “ o ” ,代表的是 “ omni ”,也就是 “ 全能 ” 的意思。它成功地把文本、视觉、音频全部打通了,这意味着 GPT-4o 可以接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像的任意组合输出。
这对多模态大模型来说,是一个重大改变。
拿此前 ChatGPT 的语音模式为例,它要用到三个独立模型组成的管道,一个模型负责将音频转录为文本,第二个模型是 GPT-4 ,它负责接收文本并输出文本,第三个模型则将该文本转换回音频。
这个过程意味最中间的主角 GPT-4 收到的信息其实是二手的 —— 它无法直接观察音调、多个说话者或背景噪音,也无法输出笑声、歌唱或表达情感等等。
而在最新的 GPT-4o 模型中,所有输入和输出,都由同一神经网络处理,也就是说,新的 GPT-4o 是一个原生的多模态模型,而非之前的组合模型,它解决了上述的所有缺点。
总之,在各型数据,特别是视觉和音频理解上,GPT-4o 相比于市面上的其他大模型,又来了一波遥遥领先。
在发布会上,他们也简单演示了一下基于 GPT-4o 的最新 AI 助手,只能说是相当震撼。
一个是 AI 助手建议 OpenAI 的工作人员别紧张,演讲前可以做个深呼吸。OpenAI 的员工则故意呼吸得很大声,让 AI 助手对其深呼吸做出评价,AI 助手直接损了他一句 “ 你不是吸尘器 ”。。。
很明显,新模型能听出发言人呼吸声的轻重,并且会富有情感的适时开玩笑
另外,工作人员一边要求 AI 助手讲个故事,一边不断要求 AI 变化音色、语调、情感等等。AI 则像《 喜剧之王 》中的周星驰一样,完美应对 “ 导演 ” 的每个需求。
同样,AI 助手的视觉能力,也在演示现场惊艳了不少人。无论在是现场通过视频,一步步指导工作人员解方程,还是通过摄像头,观察人的表情猜其心情,AI 助手几乎都完美胜任。
在发布会中,他们还展示了 AI 助手的实时翻译功能,在演示中 AI 意大利语和英文完美切换,基本感受不到任何时延。
知危编辑部上传了发布会的完整视频,搭配了机翻字幕,各位可以看看视频演示效果,在惊艳的效果面前,我们的文字形容是十分苍白的,请从视频第 9:15 分开始观看演示。( 时间仓促,机翻字幕没有进行精校,导致英文字母有部分位置重叠、有一段意大利语机器识别为乱码,但基本不影响对视频的理解,给您带来的体验不够完美,抱歉 )
知危编辑部认为本次发布会的另外一大亮点,则是基于 GPT-4o 的桌面端 App,在发布会的现场演示中,用户使用 ChatGPT 时,不再需要面对这文本对话框做输入。
你可以给 OpenAI 的桌面 App 分享屏幕,让 AI 直接线上帮你解释代码、分析图表,并且能通过语音与你实时沟通。只能说老罗的 TNT 生不逢时,在当时确实缺少了大模型的赋能。
不过,知危编辑部觉得最可怕的是,按照 OpenAI 官网的说法:他们只是浅尝辄止地探索了一番,做了些演示,连他们自己也没完全搞清楚这个模型具体能做什么样的事儿、上限在哪里。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...