EMNLPSep, 2020

使用大规模人类反馈数据进行对话响应排名训练

TL;DR通过社交媒体反馈数据构建训练集,在 133M 个人类反馈数据上训练了基于 GPT-2 的 DialogRPT 模型,结合评分模型排名机器生成的对话回复,并通过人类评估证明其效果优于基线模型。