ChatGPT的训练过程_AI前沿资讯-dadi-chatAI

AI前沿资讯

ChatGPT的训练过程

ChatGPT的训练过程通常分为四个步骤：预训练、指令微调、基于人工反馈的奖励模型训练以及利用奖励模型进行强化学习。为了让大家更好地理解，我们可以将其比喻为自己看书、上专业课、复习作业和自我练习。

预训练=自己看书

预训练是ChatGPT训练过程的第一步，它相当于自己阅读大量的文本，从零开始进行训练。由于学习任务是根据前文预测下一个字（token），因此训练数据无需标注。在这一步中，关键是要使用海量文本，并且涵盖的文本类型要尽可能广泛，包括各种网页、书籍、维基百科等。由于训练数据量很大，因此这一步的算力消耗最大，用时也最长。完成预训练后，就可以得到一个基座模型（foundation model），所有基础知识都存储在该模型的参数中。这个基座模型是文心一言的基础，它可以为后续的微调提供强大的支持。

指令微调=上专业课

指令微调是ChatGPT训练过程的第二步。虽然基座模型储存了大量知识，但是其表现出来的能力仍然有限，能够完成的任务也不多。因此，为了激活基座模型中存储的各种知识，需要设计各种任务的“提问-回答”对，对其进行迭代训练。通过上这样的“专业课”，基座模型中的知识才能被有效激活，并且能够融会贯通、解决任何训练中没见过的复杂问题。这一步的关键是任务种类要多，如果既能覆盖各种主要的原子能力又能包含常见的粘合各种原子能力的“胶水”能力，比如思维链。经过指令微调的模型就能融会贯通、解决任何训练中没见过的复杂问题了。

基于人工反馈的奖励模型训练=作业复盘

基于人工反馈的奖励模型训练是ChatGPT训练过程的第三步。在模型大体学会应对各种任务后，在实际应用中仍然可能会出现错误。因此，人工反馈的过程就非常重要。就像老师批改作业，可以让学生建立起正确的评价体系，从而在以后能够自己给自己批改作业。通过这一步骤，模型可以更好地理解任务，提高其解决问题的能力，并且能够更加准确地评估自己的表现。

强化学习=自我练习

强化学习是文心一言训练过程的最后一步。在这个步骤中，模型可以根据自己的评价体系进行自我练习，并自行打分。通过保持做对的、改正做错的，模型可以实现持续提升。强化学习可以帮助模型摆脱对老师的依赖，独立地进行练习和自我评估。通过不断地自我练习和修正，模型可以不断进步，提高其表现能力和解决问题的能力。

作者：栾剑来源：知乎