欢迎关注我的公众号 [极智视界],获取我的更多技术分享
大家好,我是极智视界,本文分享一下 ChatGPT+DALL·E+Sora+AI芯片 解读OpenAI全方位产品矩阵布局。
邀您加入我的知识星球「极智视界」,星球内有超多好玩的项目实战源码下载,链接:t.zsxq.com/0aiNxERDq
最近的 Sora 很火,这种 “火” 有点像 ChatGPT 刚出来的时候那样。
加上现在的 Sora 以及奥特曼一直在筹划的 AI 芯,在可预见的将来 OpenAI 已经形成了 ChatGPT + DALL·E + Sora + AI芯片底座的全方位产品矩阵布局。下面具体展开,
- ChatGPT => text-to-text ==> OpenAI “一战成名” 之作,也正是 ChatGPT,拉开了大模型火热的时代,拉开了 “百模大战” 的序幕;
- DALL·E => text-to-image ==> 目前市面上比较好用的图像生成工具主要是 SD、Midjourney 以及这里的 DALL·E,DALL·E 到目前也是已经发展到了第三代了,目前最新的 DALL·E3 效果是真棒;
- Sora => text-to-video ==> 文本内容生成和图片生成在视频生成面前似乎变得 “小儿科”,当然这种 “小儿科” 并不是在忽略其难度,毕竟不管整啥要做到极致棒都不太容易。视频生成当然会是在结合了文本生成 (语义特征提取) 和图片生成 (视频的每一帧) 基础上的进阶。视频生成应算是 AIGC 中属于 “难上加难” 的应用场景了,”假” 与 “真假难辨” 之间的判断非常容易;
- AI 芯 => 对标 NVIDIA GPU ==> 一直有传闻奥特曼在 “密谋” 进军 AI 芯片行业,猜测根据目前大模型的计算特点可能会是存算一体的类脑芯片。而这对于看不惯 NVIDIA 一家独大的大家来说,似乎是很希望看到的一个事情了;
从时间线上来说,印象中 23 年初发布的 ChatGPT 是最早 “放出来的”,实际 DALL·E 的发布时间更加早。DALL·E 的第一个版本在 21 年 1 月份就发布了,只是那时候的效果还不是特别理想,因为那时候还是基于 GPT3 Transformer-Base 模型的,那时候的 GPT 还没有像现在这样 “称霸武林”,那时还有大家熟悉的 BERT 和 GPT “楚汉争雄”。而后来版本的 DALL·E 性能逐渐变好,很大原因还是因为它的基础大模型由 GPT3 升级到了现在的 GPT3.5 & GPT4.0。而 DALL·E 的第二个版本 DALL·E2 依旧要比 23 年初的 ChatGPT 要早,发布于 2022 年的 4 月份。
而现在最新的是 DALL·E3,这个是在 23 年 9 月份发布的,图像生成效果特别好,只是仅放在 Plus 付费用户的 “使用列表” 之中,所以估计很多人也没有用过。
Sora 的发布也就是在前几天,堪称 OpenAI 带来的 “开年好作”,具体是 2024 年 2 月 16 日,距离本文发布也仅在周内。Sora 一发布,各种技术内容分享平台上就 “充斥着” 各种关于 “Sora 性能炸裂” 的内容,大有对视频内容创作行业产生巨大冲击的架势。事实是否真的如此呢,大家得出以上结论主要还是根据 OpenAI 放出来的使用 Sora 生成的展示视频,看起来质量很高效果很好,而且生成的视频时长也能够达到 59 秒 (1 分钟),这些效果明显会比现在市面上任何一款 text-to-video 工具的生成效果要好的多,这也是大家表现得如此兴奋的原因了。但问题在于,在 “嚷嚷着” Sora 效果多么多么好的作者们,应该都没有切身体验过 Sora 吧,因为到目前为止 Sora 并还没有向社区开放使用,仅根据 OpenAI 展示出来的效果视频就不管不顾的 “大吹特吹”,实属有点不太科学。还记得之前 Gemini 展示视频 “作弊” 的事件吗,你看到的很可能只是想让你看到的。所以对于 Sora,保持赞赏的同时可以适当留个余地,给自己一个台阶也给 OpenAI 一个台阶。横向参考,不管是 ChatGPT 还是 DALL·E,都是经过了发布 -> 社区使用 -> 反馈 -> 迭代更新的良性循环的阶段之后,效果才越来越好,相信 Sora 也是需要经过类似的 “修炼” 过程的。但是不管怎么样,Sora 的工作依旧让人兴奋,我本人也在 Sora 刚出的时候就 “忍不住” 发了个朋友圈。只是可以预料到,后续 Sora 的开放使用应该依旧只会出现在 OpenAI Plus 会员的使用列表之中,普通用户不能够直接使用。而考虑到 OpenAI Plus 会员 20 刀每月的费用,一种更加 “普惠” 的方式可能还是期待由 Sora 带来的刺激社区研究类似或接近 Sora 视频生成技术的发展突破,这样大家才能都使用到。
OpenAI 在集齐文本 AIGC ChatGPT + 图片 AIGC DALL·E + 视频 AIGC Sora 的 “三管齐下” 之后,就可以放手去做奥特曼的另一个梦想 – AI 芯片了。早在前段时候的 “奥特曼离职风波” (相关内容可以参考我的这篇分享《详细梳理山姆·奥特曼离职闹剧 仍试图重返OpenAI》) 中就有关于 “奥特曼造芯” 的新闻,而这种 “传闻” 在奥特曼重返 OpenAI 之后,早已经成为实锤。看不惯 NVIDIA 在 AI 芯片行业的一家独大,拥有最好的 AI 大模型应用生态的 OpenAI 绝对也想来 “分一杯羹”。相比 NVIDIA,OpenAI 在造 AI 芯上有着自己的优势。回望历史,AI 芯片的制造存在一定规律,总是先有了很优秀的算法,然后为了迎合或者说发挥算法更加好的性能而去专门设计加速硬件,比如之前的 AI 算法多是基于卷积神经网络,所以很长一段时间内的 AI 芯片的设计优化目标就是优先做好卷积计算的加速。这种造芯规律发展到现在依旧适用,现在的 AI 芯片需要更好发挥大模型算法的加速特点,比如大模型需要更大更快的显存,比如适应大模型的计算优化需要从专注计算密集型优化转移到兼顾访存密集型优化等等。而关于这些算法的加速优化,你说是 OpenAI 会更加了解还是 NVIDIA 会更加了解呢,只能说各有各的优势。NVIDIA 发展到现在已经构建了如 CUDA、TensorRT 等优秀的难以超越的软硬件协同优化 “算法训练部署护城河”,对比之下 OpenAI 的优势在于可以更加多的从算法本身出发去设计优化硬件,因为当今世界最优秀的算法本身就是 OpenAI 设计的,这个优势恰恰是 NVIDIA 不具备的。可以预见的未来,OpenAI 总会比 NVIDIA 更早一步知道自己的算法需要什么样的硬件,而 NVIDIA 只能是在市面上出现了更加优秀的算法后再啃次啃次做适配优化,所以这个角度,OpenAI 似乎是有底气会成为 AI 芯片巨头 NVIDIA 一个不容忽视的竞争对手的。
如今的 OpenAI 已经展示未来 AI 巨头的气质和气势了,只可惜不是国产企业。
好了,以上分享了 ChatGPT+DALL·E+Sora+AI芯片 解读OpenAI全方位产品矩阵布局,希望我的分享能对你的学习有一点帮助。
【公众号传送】