ChatGPT 多模态升级，现在可以看、听、和说话了，而不单单是一个文本驱动的工具了。正值十一小长假，很多人选择出去旅行。ChatGPT 新推出的这项功能能否用在旅行中呢？一起来看看。

一、前言

9 月 25 日，ChatGPT 多模态增加了新的语音功能和图像功能。这些功能提供了一种新的、更直观的界面，允许我们与 ChatGPT 进行语音对话或展示我们正在谈论的内容。

ChatGPT 现在可以看、听、和说话了，而不单单是一个文本驱动的工具了。

正值十一小长假，很多人选择出去旅行。ChatGPT 新推出的这项功能能否用在旅行中呢？一起来看看。

二、图像交互功能

ChatGPT 在 9 月 25 日新推出的这个版本中，添加了图片交互能力。

图像理解由多模态 GPT-3.5 和 GPT-4 提供支持。这些模型将其语言推理技能应用于各种图像，例如照片、屏幕截图以及包含文本和图像的文档。

如何使用呢？

以网页版的 ChatGPT 为例。

点输入框左侧的「图片」按钮，就可以上传图片。可以上传一张或多张图片。

上传后，针对图片中的内容，输入我们想问的问题即可。例如就像下面这样。

看看 ChatGPT 的回答。回答得还不错，看来 ChatGPT 对图像内容的理解还是可以的。

在生活中有哪些应用呢？

比如刚刚上面举的这个例子：景点识别。

现在正值十一小长假，很多人外出旅行。

当我们看到一个不知名但很有趣的景点或地标时，可以拍摄照片并展示给 ChatGPT，它可以帮助我们识别并提供相关信息。

如果我们在旅行中遇到技术问题，如相机设置等，也可以向 ChatGPT 展示问题所在，获取技术支持和建议。

再来看几个官方的示例。

这个例子中上传了两张图，一张是使用说明，另一个是工具箱。然后向 ChatGPT 提问「工具箱中是否有正确的工具」。

另外，如果要聚焦图像的特定部分，还可以使用手机版 ChatGPT 中的绘图工具，圈出某个位置。

这个例子是询问「如何降低自行车座」。同时使用了 ChatGPT 中的绘图工具，圈出某个位置，然后再进行提问。

再比如，在家中拍摄冰箱和食品储藏室的照片，来确定晚餐菜单，并询问详细的食谱。

也可以拍摄数学问题的照片、或者工作中数据的复杂图表，圈出问题，并与 ChatGPT 共同探讨解决方法。

此时脑海中飘过电视上之前经常播的一个广告：哪里不会点哪里~

三、语音交互功能

ChatGPT 的多模态，除了新增了「图像交互功能」外，还增加了「语音交互功能」。

用户可以使用语音与 ChatGPT 进行双向对话。

其实以前也是支持语音的，只不过是仅限于「听」

新的语音功能由新的「text-to-speech」模型驱动，能够从简短的样本语音中生成类似人类的音频。

但语音交互功能目前只在手机端可以使用。

如何使用呢？

在手机端应用中点「设置」→「新功能」，选择加入语音对话。

点击位于主屏幕右上角的耳机按钮，然后从 5 种不同的声音中选择喜欢的声音，就可以开始进行对话了。

语音功能可以用来做什么呢？

比如练习外语口语，让它充当你的外教老师。

再比旅途中与它交谈，让它充当我们的随身导游。

或者也可以用它来为家里小孩讲睡前故事，等等。

四、模型的局限性和风险

用户可能依赖 ChatGPT 处理专业话题，例如研究领域。不鼓励在没有适当验证的情况下使用高风险用例。
模型擅长转录英文文本，但在处理某些其他语言时表现不佳。

五、目前可用范围

目前 ChatGPT 多模态新增的图像和语音功能，只在 Plus 用户和企业用户下可以使用。开发者和其他用户群体将在此后不久获得这些功能。
另外，语音功能只在 iOS 和 Android 上可以使用，而图像功能在网页和手机上均可使用。

六、结束语

随着技术的不断进步，我们正见证着人工智能领域的一次次重大突破。ChatGPT 的多模态功能，不仅为我们提供了与机器交流的新方式，还为我们打开了无尽的可能性。

通过语音、图像和文字的结合，我们可以更加直观、高效地与 AI 助手互动，从而更好地满足我们的日常需求。

正如 OpenAI 所展示的，未来的 AI 将不仅仅是文字和代码，而是一个能「看见」、「听到」并「说话」的实体。

关于 ChatGPT 多模态的图片功能和语音功能，感兴趣的可以移步官方进一步了解：

openai.com/blog/chatgp…

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

{{userData.name}}已认证

[Release] Tree Of Savior

服务器文件圣斗士星矢 2024 + 客户端 + GM 工具 + 安装教程 + 新闻更新

Ragnarok M korea mobile game source(O)

PTS_4.6_Guide

[一键安装] 手游-天道情缘

[一键安装] 霸王大陆EP8-5.0 虚拟机+源码+大背包+商城-最新整理

【灵魂行者】【灵魂武器】【SoulWorker】100级端（后宫行者）虚拟机版

[一键安装] 龙之谷手游飓风龙单机版一键端完整GM后台局域网

ChatGPT多模态升级，支持图片和语音，体验如何？

一、前言

二、图像交互功能

如何使用呢？

在生活中有哪些应用呢？

三、语音交互功能

如何使用呢？

语音功能可以用来做什么呢？

四、模型的局限性和风险

五、目前可用范围

六、结束语

程序员赚钱案例库#2 ToB的Google Photos(tagbox.io)

【AI模型】首个Joy 模型诞生！！！全民生成Joy大片 | 京东云技术团队

{{userData.name}}已认证

一、前言

二、图像交互功能

如何使用呢？

在生活中有哪些应用呢？

三、语音交互功能

如何使用呢？

语音功能可以用来做什么呢？

四、模型的局限性和风险

五、目前可用范围

六、结束语

Related posts: