Sep, 2019

从人类偏好中微调语言模型

TL;DR本文介绍了如何利用奖励学习将强化学习应用于自然语言任务中,旨在建立适用于现实世界任务的奖励模型。我们将奖励学习应用于四个自然语言任务(文本连续生成、摘要),取得了不错的结果,但模型可能会利用人类评估者的简单启发式规则。