Sep, 2023

用于生成半结构化解释的奖励工程

TL;DR我们首先强调有监督微调在解决这个问题中的局限性,然后介绍了一种精心设计的强化学习中奖励工程方法以更好地解决这个问题,我们研究了多种奖励聚合方法,并提供了详细的讨论,阐明了强化学习在未来研究中的潜在潜力,我们提出的两种半结构化解释生成基准(ExplaGraph 和 COPA-SSE)上的奖励取得了新的最先进结果。