RewardsOfSum: 探索用于摘要生成的强化学习奖励
从 2500 个摘要的人为评分中学习奖励函数,得出的 RL 系统奖励函数在人类评价方面具有显著更高的相关性,使用我们得出的奖励函数进行训练的 RL 系统生成了比现有方法更符合人类喜好的摘要。
Sep, 2019
本研究论文使用分布式语义学方法,提出了一种新的奖励制度 DSR (Distributional Semantics Reward),用于评估候选摘要的性能,与传统的奖励模式相比,DSR 可以更准确地捕捉自然语言的词汇和构成多样性。
Aug, 2019
使用强化学习的抽象化概括方法已经被提出来克服传统极大似然估计的限制,提出了一些使用问题回答作为替代评价指标的模型,并在人工和自动评价指标上取得了较大的提升。
Sep, 2019
提出了一种新的基于强化学习的文档摘要算法 ——RELIS,它采用学习排序算法训练奖励函数,并在测试时使用该奖励函数来训练输入特定的强化学习策略,相比当下最先进的模型能够将训练时间缩短两个数量级并保持同样的性能,适用于多文档摘要。
Jul, 2019
本文比较了强化学习(RL)和基于句法的模型(如基于词性标注和依存信息的模型)两种文摘方法的优劣,并探究了它们在生成摘要时的影响,得出了使用两种方法的联合模型在质量评估方面表现最佳,但仅使用强化学习的训练无需更少的参数和更快的训练收敛即可得到与基于句法模型相近的好结果。
Dec, 2019
通过强化学习方法,采用 ROUGESal 和 Entail 两种新的奖励函数优化传统指标 ROUGE,实现多重奖励同时优化的方式来提高摘要生成的效果。实验证明,该方法在 CNN/Daily Mail 数据集上达到了新的最高性能水平,并在测试集合 DUC-2002 中有很大的提高。
Apr, 2018
本文提出了一种基于强化学习的抽象式问题摘要框架,该框架通过 downstream 任务中的问题类型识别和问题重点识别得到两个新颖的奖励来规范问题生成模型,从而确保问题摘要的语义有效并鼓励包含关键的医疗实体 / 重点。作者在两个基准数据集上对其所提出的方法进行了评估,并取得了比现有模型更高的性能。手动评估总结结果表明生成的问题更具多样性且不具备基线总结的不准确性。
Jul, 2021
本文通过使用句子重写模型,采用先提取常规句子,后对所选句子进行释义来生成摘要的策略,提出了一种通过强化学习直接最大化摘要级别 ROUGE 得分的新型训练信号,并在 CNN / Daily Mail 和纽约时报数据集上展示了新的最先进表现。在整个实验中,我们还演示了它在 DUC-2002 测试集上的普遍适用性。
Sep, 2019