Dec, 2021

WebGPT: 借助浏览器进行问题回答并获得人类反馈

TL;DR在文本浏览环境中使用 GPT-3 进行长篇问题回答的模型训练,通过模仿学习和人类反馈优化答案质量,并使用 ELI5 数据集对模型进行评估和训练,最佳模型通过行为克隆和逆向采样获得,最终得到的答案比 Reddit 上评分最高答案及人类演示者的答案更受人类用户喜欢。