生成式 AI 已经发展数年,还是有不少人弄不清楚 Transformer、GPT、大模型、AIGC 这些词汇的概念。有很多非从业者想要了解 ChatGPT 到底会如何影响我们,或者有很多当爹当妈的被孩子问到却不知道怎么“幼儿园化”地把这些概念讲清楚。这篇文章,我们就来解决下这个问题。
Transformer、GPT、InstructGPT、大模型、AIGC ……你是不是被这个概念闹晕了?
作为一个文科生 +AIGC 从业者 + 市场人,其实要搞懂 ChatGPT 等等晦涩的概念多多少少有些吃力,我想应该会有不少人也有这种感觉。
或者有很多非从业者想要了解 ChatGPT 到底会如何影响我们,或者有很多当爹当妈的被孩子问到却不知道怎么“幼儿园化”地把这些概念讲清楚。
但是我看了大部分市场上传播的文章,依然晦涩难懂,造成了不少认知门槛。
今天,我试着挑战,用一篇文章搞清楚 ChatGPT 的相关概念,一方面让自己加深理解,另一方面,希望对各位有用。
一、Transformer
我的理解是,这是一种高级的“翻译机器”,它能够理解和翻译不同语言之间的文本。为了帮助你更通俗地理解这个模型,我们可以将其比作一个有着超凡记忆力和注意力分配能力的多语言翻译家。
这个翻译家有以下几种能力:
自注意力机制:这个翻译家在阅读一段文本时,不仅关注当前的单词,还能够记住并考虑到整个句子或段落中的其他单词。这种能力使得翻译家能够捕捉到文本中的重要信息和上下文关系,从而更准确地理解和翻译。
位置编码:就像翻译家在阅读时会注意到单词在句子中的位置一样,位置编码帮助模型理解单词的顺序。这对于理解句子结构和意义非常重要,就像我们知道“狗追赶猫”和“猫追赶狗”这两个句子的意思完全不同。
编码器和解码器:模型的编码器部分就像翻译家在理解原文时的大脑,它会分析输入文本的内容和结构。而解码器部分则像是翻译家在创造译文时的大脑,它会基于对原文的理解生成新的句子,相当于设计了一个程序语言。
多头注意力:这就像是翻译家有多个分身,每个分身专注于文本的不同方面,比如语法、词汇选择、文化背景等。通过这种方式,翻译家可以从多个角度理解文本,从而做出更准确的翻译。
前馈神经网络:可以比作翻译家在处理信息时的逻辑和分析能力,它会对编码器和解码器的输出进行进一步的分析和加工,确保翻译的准确性和流畅性。
二、GPT
GPT,一个多层的 Transformer 解码器,它就像是一个通过大量阅读和学习,掌握了许多语言知识和写作技巧的“虚拟作家”。这个作家不仅阅读了大量的书籍和文章,而且还学会了如何根据上下文生成连贯、有意义的文本。
想象这个作家在成长的过程中,没有老师直接告诉他哪些句子是正确的,哪些是错误的。相反,他通过阅读大量的文本,自己学会了语言的规则和模式。这就是 GPT 模型的自监督学习,它通过阅读大量未标记的文本数据,自己学习语言的结构和用法。
这个作家首先通过广泛的阅读来积累知识(预训练),然后在需要写特定类型的文章时,他会针对这种类型进行专门的练习(微调)。GPT 模型也是如此,它首先在大量数据上进行预训练,然后在特定任务上进行微调,以提高在该任务上的表现。
在写作时,这个作家只能根据他已经写好的内容来预测下一个字或句子,而不能提前知道后面的内容。GPT 模型使用因果掩码来确保在生成文本时,每个单词只依赖于它之前的单词,保证了文本的连贯性。
随着时间的推移,这个作家不断学习和积累经验,写作技巧也越来越熟练。GPT-1、GPT-2 和 GPT-3 就像这个作家的不同成长阶段,每一代都比前一代阅读了更多的书籍,掌握了更多的知识,写作能力也更强。
到了 GPT-3 这个阶段,这个作家已经非常熟练,即使没有或只有很少的示例,他也能够写出高质量的文章。这意味着 GPT-3 能够在没有或只有极少的特定任务训练数据的情况下,理解和完成新的任务。
三、InstructGPT
什么是 InstructGPT?
如果 GPT-3 想象成一个聪明的学生,那么 InstructGPT 则是这个学生经过特别辅导后的样子。
GPT-3 这个学生虽然学习了很多知识,但有时候回答问题可能会离题、编造故事、或者带有一些不公平的看法。同时,他在进行长对话时,有时会忘记之前说过的内容,导致对话不够连贯。
为了让这个学生更好地理解老师(人类用户)的意图,并且按照老师的喜好来回答问题,我们需要一种方法来调整他的学习方式,这就是“ Alignment ”(对齐)的概念。
为了让 GPT-3 变得更好,我们给他请了一个特别的家教(RLHF),这个家教通过收集老师的反馈来知道哪些答案是好的,哪些是不好的。然后,家教用这些反馈来指导学生学习,帮助他在未来给出更符合老师期望的答案。
四、ChatGPT(GPT3.5/GPT4.0)
我的理解是, ChatGPT 就像是一个全能的、知识渊博的机器人图书管理员,随时准备帮助你解答问题和提供信息。而且,随着时间的推移,它会学到更多的东西,变得更加聪明和有用。
这个机器人图书管理员不仅知道很多关于书籍和文字的知识,它还能理解图片。所以,如果你给它看一张图片,它不仅能告诉你图片里有什么,还能根据图片给你讲一个故事或者回答你关于图片的问题。
五、大模型
如何理解这一概念?
我们用一个小学生也能理解的方式来解释这些概念。
想象一下,有一个非常非常大的学校,这个学校有很多层楼和很多教室。这个学校就像是一个“大模型”,它有很多老师(参数)和学生(数据)。这些老师非常聪明,他们可以教很多不同的课程,比如数学、语文、科学等等。
模型架构设计:这个学校的建筑(模型架构)设计得很特别,有很多教室和走廊,这样老师们就可以在不同的教室里教不同的课程,而且学生们也可以轻松地从一个教室走到另一个教室。
数据准备:为了让老师们教得更好,学校收集了很多教科书和练习册(数据),这样老师们就可以用这些资料来准备课程,并且帮助学生们学习。
计算资源:因为这个学校非常大,所以需要很多电脑和服务器(计算资源)来帮助老师们准备课程和批改作业。
优化算法:学校还有一个非常聪明的校长(优化算法),他会确保老师们用最好的方法来教学,并且帮助学生们取得好成绩。
正则化技术:有时候,老师们可能会对某个课程太专注,忽略了其他课程。校长会确保这种情况不会发生,让所有的课程都得到平衡(这就是正则化技术)。
模型并行和数据并行:因为这个学校有很多学生,所以老师们会分成小组来教课(模型并行),同时,学生们也会分成小组来学习(数据并行)。
现在,这个学校有很多成功的毕业生,比如 GPT-3、BERT 和 T5 等。他们都是在这个大学校里学习过的,现在他们可以帮助人们解决很多问题,比如写作文、做数学题或者解答科学问题。
所以,这个大学校(大模型)就像是一个能够培养出很多聪明学生的好地方,虽然它需要很多资源和努力来运营,但是它能够帮助我们做很多事情,让我们的生活变得更好。
六、AIGC(人工智能生成内容)
想象一下,你有一个非常聪明的机器人朋友,它可以做很多事情,比如画画、写故事、甚至帮你做数学题。这个机器人朋友就是人工智能(AI)的一个例子。
AIGC(人工智能生成内容):这个机器人朋友可以创造很多东西,就像一个会画画和写故事的艺术家。它可以画出你想象中的图画,或者写出一个关于你最喜欢的超级英雄的故事。这就是人工智能生成内容,意味着机器人可以用它的大脑(AI 技术)来创造新的东西。
Diffusion(扩散模型):想象你把一滴墨水滴进清水里,墨水会慢慢散开,最后水变得浑浊。机器人朋友就像能够把这个浑浊的水变回清澈一样,它可以从一团混乱的噪点中创造出清晰的图画。
CLIP(图文表征模型):如果你给这个机器人朋友看很多图片和它们的名字(比如“苹果”、“小狗”、“汽车”),它会学会识别这些图片。下次你给它看一个新的图片,它就能告诉你图片里是什么。
Stable Diffusion(稳定扩散模型):这个机器人朋友还可以根据你给它的提示来画画。比如你告诉它“画一个快乐的小狗”,它就能画出一个小狗的图画,而且这个小狗看起来很开心。
七、AGI(通用人工智能)
想象一下,如果这个机器人朋友不仅会画画和写故事,还能像人类一样理解世界,学习任何东西,并且可以做任何工作,那么它就像一个真正的小朋友一样了。这就是通用人工智能,它能够做任何人类能做的事情。
现在的 AI,比如 GPT,就像是一个在某个特定领域(比如写故事)非常擅长的机器人,但它并不像真正的小朋友那样理解世界。科学家们正在努力让 AI 变得更像人类,但这是一个很大的挑战,需要很多时间和研究。
所以,AIGC 就是让 AI 像艺术家一样创造内容,而 AGI 是让 AI 变得像人类一样理解和做事。
八、LLM(大型语言模型)
大型语言模型就像是一个非常非常聪明的图书管理员,它读过很多书,知道很多关于语言的知识,可以帮助我们做很多事情,甚至可以自己写故事。
想象一下,这个图书馆管理员每天都在阅读图书馆里的成千上万的书籍。它通过阅读这些书籍,学会了很多单词、句子和故事。这就是大型语言模型的训练过程,它通过阅读大量的文本数据来学习语言。
因为读过很多书,这个管理员可以帮你做很多事情。比如,它可以给你讲一个故事的摘要,或者帮你把一个故事翻译成另一种语言,甚至可以告诉你一个故事里的人物是开心还是伤心。大型语言模型也是这样,它可以执行很多不同的任务,比如文本总结、翻译和情感分析。
这个管理员之所以这么聪明,是因为它有一个超级大脑,里面有很多“小房间”(参数),每个“小房间”都存储着不同的信息和知识。大型语言模型也是这样,它有很多参数,这些参数帮助它记住和理解语言的复杂规则和模式。
当你问这个管理员一个问题,或者给它一个主题时,它可以给你一个答案或者讲一个故事。它可以根据它读过的书籍和学到的知识,创造出连贯和有意义的文本。大型语言模型也是这样,它可以生成新的文本,就像它自己在写故事一样。
GPT-3、ChatGPT、BERT 和 T5 就像是不同领域的图书馆管理员,有的可能更擅长讲故事,有的可能更擅长解释科学知识,而文心一言就像是会写诗的图书管理员。它们都有自己的特长,但都能帮助我们理解和使用语言。
九、Fine-tuning(微调)
微调就像是在你已经学会一项技能的基础上,做一些小的改变和练习,让你能够更好地完成一个特定的任务。这样做可以节省时间,因为你不需要重新学习所有的东西,只需要专注于你需要改进的部分。
举个例子,你在学习骑自行车。你的爸爸或妈妈先带你在一个空旷的大公园里练习(这就像是预训练模型,公园里的各种地形就像是大量的数据,帮助你学会骑车的基本技巧)。
现在你已经会骑车了,但是你想学习如何在你家附近的小山丘上骑(这就像是一个新的任务,需要微调)。因为小山丘的路和公园里的路可能不一样,有上坡、下坡和弯道,所以你需要一些特别的练习来适应这些新的情况。
你的爸爸或妈妈会带你在小山丘上练习几天,这样你就会知道如何在上坡时蹬得更用力,在下坡时控制速度,在弯道时转弯(这就是微调过程,你在学习如何应用你已经掌握的骑车技巧来适应新的环境)。
微调的好处是,因为你已经知道怎么骑车了,所以你不需要再从零开始学习,只需要做一些小的调整就可以了。这就像是微调一个已经预训练好的模型,让它适应一个新的任务,比如理解医学文本。
十、 自监督学习(Self-Supervised Learning)
自监督学习就像是通过读故事和玩游戏来学习新单词,而不需要别人告诉我们答案。这样,我们可以用很多没有标签的数据来训练模型,让模型变得更聪明。
比如你正在读一本非常有趣的故事书。你读了很多页,学到了故事里的很多新单词和句子。现在,如果你的朋友在旁边,你可以玩一个游戏:你给他读故事的一部分,然后遮住一些单词,让你的朋友猜下一个单词是什么。这个游戏就像是自监督学习。
在这个游戏中,你的朋友不需要别人告诉他正确的答案是什么,因为故事的上下文(已经读过的部分)就是线索。你的朋友可以通过他已经知道的单词和故事的内容来猜测下一个单词。这就是自监督学习的方式,模型通过已经知道的信息来学习新的东西,而不需要额外的答案或标签。
以上,就是我的本周观察和思考,欢迎讨论。
专栏作家
黄河懂运营,微信公众号:黄河懂运营,人人都是产品经理专栏作家。5 年 + 运营实操经验,甲乙方市场 / 营销 / 运营经验,擅长从 0 到 1 帮助企业搭建运营增长体系,在项目管理、市场调研、消费者心理研究、社媒营销等方面有较为丰富的实战经验。
题图来自 Unsplash,基于 CC0 协议。