Mar, 2022

使用人类反馈训练语言模型遵循指令

TL;DR本篇论文提出通过人类反馈进行微调以增进语言模型与用户意图更好地对齐的方法,并展示了基于该方法得到的 InstructGPT 模型在排名、输出质量、真实性等方面皆优于规模更大的 GPT-3 模型,并最终得出该方法为改进语言模型对齐的一个有前途的方向。