ChatGPT多模态升级,支持图片和语音,体验如何?

ChatGPT 多模态升级,现在可以看、听、和说话了,而不单单是一个文本驱动的工具了。 正值十一小长假,很多人选择出去旅行。ChatGPT 新推出的这项功能能否用在旅行中呢?一起来看看。

一、前言

ChatGPT多模态升级,支持图片和语音,体验如何?

9 月 25 日,ChatGPT 多模态增加了新的语音功能图像功能。这些功能提供了一种新的、更直观的界面,允许我们与 ChatGPT 进行语音对话或展示我们正在谈论的内容。

ChatGPT 现在可以看、听、和说话了,而不单单是一个文本驱动的工具了。

正值十一小长假,很多人选择出去旅行。ChatGPT 新推出的这项功能能否用在旅行中呢?一起来看看。

二、图像交互功能

ChatGPT 在 9 月 25 日新推出的这个版本中,添加了图片交互能力。

图像理解由多模态 GPT-3.5 和 GPT-4 提供支持。这些模型将其语言推理技能应用于各种图像,例如照片、屏幕截图以及包含文本和图像的文档。

如何使用呢?

以网页版的 ChatGPT 为例。

ChatGPT多模态升级,支持图片和语音,体验如何?

点输入框左侧的「图片」按钮,就可以上传图片。可以上传一张或多张图片。

上传后,针对图片中的内容,输入我们想问的问题即可。例如就像下面这样。

ChatGPT多模态升级,支持图片和语音,体验如何?

看看 ChatGPT 的回答。回答得还不错,看来 ChatGPT 对图像内容的理解还是可以的。

ChatGPT多模态升级,支持图片和语音,体验如何?

在生活中有哪些应用呢?

比如刚刚上面举的这个例子:景点识别

现在正值十一小长假,很多人外出旅行。

当我们看到一个不知名但很有趣的景点或地标时,可以拍摄照片并展示给 ChatGPT,它可以帮助我们识别并提供相关信息。

如果我们在旅行中遇到技术问题,如相机设置等,也可以向 ChatGPT 展示问题所在,获取技术支持和建议。

再来看几个官方的示例。

ChatGPT多模态升级,支持图片和语音,体验如何?

这个例子中上传了两张图,一张是使用说明,另一个是工具箱。然后向 ChatGPT 提问「工具箱中是否有正确的工具」。

另外,如果要聚焦图像的特定部分,还可以使用手机版 ChatGPT 中的绘图工具,圈出某个位置。

ChatGPT多模态升级,支持图片和语音,体验如何?

这个例子是询问「如何降低自行车座」。同时使用了 ChatGPT 中的绘图工具,圈出某个位置,然后再进行提问。

ChatGPT多模态升级,支持图片和语音,体验如何?

ChatGPT多模态升级,支持图片和语音,体验如何?

再比如,在家中拍摄冰箱和食品储藏室的照片,来确定晚餐菜单,并询问详细的食谱。

也可以拍摄数学问题的照片、或者工作中数据的复杂图表,圈出问题,并与 ChatGPT 共同探讨解决方法。

此时脑海中飘过电视上之前经常播的一个广告:哪里不会点哪里~

三、语音交互功能

ChatGPT 的多模态,除了新增了「图像交互功能」外,还增加了「语音交互功能」。

用户可以使用语音与 ChatGPT 进行双向对话。

其实以前也是支持语音的,只不过是仅限于「听」

新的语音功能由新的「text-to-speech」模型驱动,能够从简短的样本语音中生成类似人类的音频。

但语音交互功能目前只在手机端可以使用。

如何使用呢?

在手机端应用中点「设置」→「新功能」,选择加入语音对话。

点击位于主屏幕右上角的耳机按钮,然后从 5 种不同的声音中选择喜欢的声音,就可以开始进行对话了。

语音功能可以用来做什么呢?

比如练习外语口语,让它充当你的外教老师。

再比旅途中与它交谈,让它充当我们的随身导游。

或者也可以用它来为家里小孩讲睡前故事,等等。

四、模型的局限性和风险

  • 用户可能依赖 ChatGPT 处理专业话题,例如研究领域。不鼓励在没有适当验证的情况下使用高风险用例。

  • 模型擅长转录英文文本,但在处理某些其他语言时表现不佳。

五、目前可用范围

  • 目前 ChatGPT 多模态新增的图像和语音功能,只在 Plus 用户企业用户下可以使用。开发者和其他用户群体将在此后不久获得这些功能。

  • 另外,语音功能只在 iOS 和 Android 上可以使用,而图像功能在网页和手机上均可使用。

六、结束语

随着技术的不断进步,我们正见证着人工智能领域的一次次重大突破。ChatGPT 的多模态功能,不仅为我们提供了与机器交流的新方式,还为我们打开了无尽的可能性。

通过语音、图像和文字的结合,我们可以更加直观、高效地与 AI 助手互动,从而更好地满足我们的日常需求。

正如 OpenAI 所展示的,未来的 AI 将不仅仅是文字和代码,而是一个能「看见」、「听到」并「说话」的实体。

关于 ChatGPT 多模态的图片功能和语音功能,感兴趣的可以移步官方进一步了解:

openai.com/blog/chatgp…

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。

给TA打赏
共{{data.count}}人
人已打赏
人工智能

程序员赚钱案例库#2 ToB的Google Photos(tagbox.io)

2024-5-5 5:31:12

人工智能

【AI模型】首个Joy 模型诞生!!!全民生成Joy大片 | 京东云技术团队

2024-5-5 9:31:43

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索