Nov, 2020

探究生成深度问题的问题特定奖励

TL;DR通过强化学习优化针对问题产生特定目标的奖励,如流畅性、相关性和可回答性,以提高生成问题的质量。优化问题特定的奖励通常会在自动评估指标中表现出更好的性能,但是,仅与人类判断相关的奖励(例如相关性)会在实际问题质量上带来真正的改善。只优化可回答性等其他问题会引入模型的错误偏见,导致质量差的问题。