Sep, 2021

通过可微分奖励模仿学习生成自包含且以概括为中心的问答对

TL;DR本文提出了一种通过问答对生成自包含、以摘要为中心的问题和长度受限、文章概括性答案的模型,该模型通过一个新的数据集学习QA生成模型,利用可微分的奖励函数增强QA生成过程以减轻曝光偏差的影响。自动度量和人类评估都表明这些QA交成功能够捕捉文章的重点并实现高准确度的答案。