
在2018年,openAI首次推出生成式预训练转化器(GPT)模型, 名为GPT-1. 这些模型在2019年的GPT-2, 2020年的GPT-3以及最近在2022年的InstructGPT和ChatGPT中继续发展. 在将人类反馈整合到系统中之前, GPT模型进化的最大进步是由计算效率方面的成就推动的, 这使得GPT-3能够在比GPT-2多得多的数据上进行训练, 使其拥有更多样化的知识基础和执行更广泛任务的能力.
所有的GPT模型都利用了转化器结构, 这意味着它们有一个编码器来处理输入序列, 一个解码器来生成输出序列. 编码器和解码器都有一个多头的自我注意机制, 允许模型对序列的部分进行不同的加权, 以推断出意义和背景. 此外, 编码器利用掩蔽语言模型来理解单词之间的关系, 并产生更易理解的反应.
驱动GPT的自我关注机制通过将标记(文本片段, 可以是一个词, 一个句子或其他文本分组)转换为向量, 代表该标记在输入序列中的重要性. 为了做到这一点, 该模型:
1.为输入序列中的每个标记创建一个查询, 键和值向量.
2.通过采取两个向量的点积, 计算第一步中的查询向量与其他每个标记的关键向量之间的相似性.
3.通过将第2步的输出输入softmax函数, 生成规范化的权重.
4.产生一个最终向量, 通过将步骤3中产生的权重乘以每个标记的值向量, 代表该序列中标记的重要性.
GPT使用的'多头'注意机制是自我关注的进化. 该模型不是一次性执行第1-4步, 而是并行地多次迭代这一机制, 每次都会产生一个新的查询, 键和值向量的线性投影. 通过以这种方式扩展自我关注, 该模型能够掌握输入数据中的子含义和更复杂的关系.
ChatGPT是InstructGPT的衍生产品, 它引入了一种新颖的方法, 将人类反馈纳入训练过程, 使模型的输出与用户的意图更好地结合起来.
第1步: 监督微调(SFT)模型
第一次开发涉及微调GPT-3模型, 雇用了40个承包商来创建一个有监督的训练数据集, 其中输入有一个已知的输出供模型学习. 输入, 或提示, 是从实际的用户输入开放API中收集的. 然后, 标签人员对提示写出适当的回应, 从而为每个输入创建一个已知的输出. 然后, GPT-3模型使用这个新的, 有监督的数据集进行微调, 以创建GPT-3.5, 也称为SFT模型.
第2步: 奖励模式
在步骤1中训练SFT模型之后, 该模型生成对齐更好的响应以对用户提示. 下一个改进的形式是训练奖励模型, 其中模型输入是一系列提示和响应, 输出是称为奖励的缩放值. 为了利用强化学习, 需要奖励模型, 在强化学习中, 模型学习产生输出以最大化其奖励(参见步骤3).
第3步: 强化学习模型
在最后阶段, 模型将收到随机提示并返回响应. 响应是使用模型在步骤2中学习的'策略'生成的. 该策略代表机器已经学会用于实现其目标的策略; 在这种情况下, 最大化其奖励. 根据步骤2中开发的奖励模型, 然后确定提示和响应对的缩放器奖励值. 然后, 奖励会反馈到模型中以进化策略.
北大青鸟开设了人工智能、大数据、5G云计算、Java、前端、软件开发等课程,办学十余年,拥有丰富的教学经验。如果你想学习一些人工智能方面的知识,也欢迎致电400-8035-955或在下方留下联系方式来北大青鸟咨询!