近期ChatGPT等人工智能模型的推出,让人工智能、AI、ChatGPT等词不断登上热搜。发布五天,ChatGPT用户便超过100万人,无情碾压了脸书公司10个月破百万用户的纪录。发布短短两个月,ChatGPT日活跃用户数突破1亿,打破了Twitter保持的9个月的纪录,成为史上用户数增长最快的消费者应用。但是,你知道ChatGPT是怎么工作的吗?
ChatGPT是一类机器学习自然语言处理模型的推断,被称为大型语言模型(LLM)。 LLM消化了大量的文本数据,并推断出文本中单词之间的关系。在过去的几年里, 随着我们看到计算能力的进步, 这些模型也在不断增长。随着输入数据集和参数空间大小的增加, LLM的能力也在增加。语言模型的最基本的训练涉及到预测一连串词语中的一个词。最常见的是,这被观察为下一个标记预测和屏蔽语言模型。
在2018年,openAI首次推出生成式预训练转化器(GPT)模型, 名为GPT-1. 这些模型在2019年的GPT-2, 2020年的GPT-3以及最近在2022年的InstructGPT和ChatGPT中继续发展. 在将人类反馈整合到系统中之前, GPT模型进化的最大进步是由计算效率方面的成就推动的, 这使得GPT-3能够在比GPT-2多得多的数据上进行训练, 使其拥有更多样化的知识基础和执行更广泛任务的能力.
所有的GPT模型都利用了转化器结构, 这意味着它们有一个编码器来处理输入序列, 一个解码器来生成输出序列. 编码器和解码器都有一个多头的自我注意机制, 允许模型对序列的部分进行不同的加权, 以推断出意义和背景. 此外, 编码器利用掩蔽语言模型来理解单词之间的关系, 并产生更易理解的反应.
驱动GPT的自我关注机制通过将标记(文本片段, 可以是一个词, 一个句子或其他文本分组)转换为向量, 代表该标记在输入序列中的重要性. 为了做到这一点, 该模型:
1.为输入序列中的每个标记创建一个查询, 键和值向量.
2.通过采取两个向量的点积, 计算第一步中的查询向量与其他每个标记的关键向量之间的相似性.
3.通过将第2步的输出输入softmax函数, 生成规范化的权重.
4.产生一个最终向量, 通过将步骤3中产生的权重乘以每个标记的值向量, 代表该序列中标记的重要性.
GPT使用的'多头'注意机制是自我关注的进化. 该模型不是一次性执行第1-4步, 而是并行地多次迭代这一机制, 每次都会产生一个新的查询, 键和值向量的线性投影. 通过以这种方式扩展自我关注, 该模型能够掌握输入数据中的子含义和更复杂的关系.
ChatGPT是InstructGPT的衍生产品, 它引入了一种新颖的方法, 将人类反馈纳入训练过程, 使模型的输出与用户的意图更好地结合起来.
第1步: 监督微调(SFT)模型
第一次开发涉及微调GPT-3模型, 雇用了40个承包商来创建一个有监督的训练数据集, 其中输入有一个已知的输出供模型学习. 输入, 或提示, 是从实际的用户输入开放API中收集的. 然后, 标签人员对提示写出适当的回应, 从而为每个输入创建一个已知的输出. 然后, GPT-3模型使用这个新的, 有监督的数据集进行微调, 以创建GPT-3.5, 也称为SFT模型.
第2步: 奖励模式
在步骤1中训练SFT模型之后, 该模型生成对齐更好的响应以对用户提示. 下一个改进的形式是训练奖励模型, 其中模型输入是一系列提示和响应, 输出是称为奖励的缩放值. 为了利用强化学习, 需要奖励模型, 在强化学习中, 模型学习产生输出以最大化其奖励(参见步骤3).
第3步: 强化学习模型
在最后阶段, 模型将收到随机提示并返回响应. 响应是使用模型在步骤2中学习的'策略'生成的. 该策略代表机器已经学会用于实现其目标的策略; 在这种情况下, 最大化其奖励. 根据步骤2中开发的奖励模型, 然后确定提示和响应对的缩放器奖励值. 然后, 奖励会反馈到模型中以进化策略.
北大青鸟开设了人工智能、大数据、5G云计算、Java、前端、软件开发等课程,办学十余年,拥有丰富的教学经验。如果你想学习一些人工智能方面的知识,也欢迎致电400-8035-955或在下方留下联系方式来北大青鸟咨询!