文本摘要的逆强化学习
提出了一种新的基于强化学习的文档摘要算法 ——RELIS,它采用学习排序算法训练奖励函数,并在测试时使用该奖励函数来训练输入特定的强化学习策略,相比当下最先进的模型能够将训练时间缩短两个数量级并保持同样的性能,适用于多文档摘要。
Jul, 2019
本论文针对文本生成中奖励稀疏和模式崩溃等问题,提出采用反强化学习方法实现文本生成,即通过学习在训练数据上的奖励函数和最大化预期总奖励的最优策略函数,将奖励和策略函数进行优化,实验结果表明该方法较之前的方法可以生成更高质量的文本。
Apr, 2018
从 2500 个摘要的人为评分中学习奖励函数,得出的 RL 系统奖励函数在人类评价方面具有显著更高的相关性,使用我们得出的奖励函数进行训练的 RL 系统生成了比现有方法更符合人类喜好的摘要。
Sep, 2019
从专家行为中直接推断出奖励机制(RM)的贝叶斯逆强化学习(BIRL)框架,以非 Markovian 奖励函数为基础进行了重大改进,新的奖励空间定义,将专家示范调整为包括历史,展示了计算奖励后验的方法,并提出了一种模拟退火的新修改方案来最大化后验,通过优化其推断的奖励表现出良好性能,并与学习严格二值非 Markovian 奖励的现有方法进行了有利比较。
Jun, 2024
本篇论文提出了一种基于强化学习的抽象模型,用于无人工摘要的句子摘要,同时还开发了一种多摘要机制来提高摘要质量。实验结果表明,该模型明显优于抽象和提取式模型,经常生成未包含在原始文本中的新单词。
Dec, 2022
本文对逆强化学习领域的现有文献进行了分类调查,介绍了 IRL 问题和其挑战,讨论了目前的解决方法,并探讨了处理传感不准确、不完整的模型、多个奖励函数和非线性奖励函数等问题的方法,同时总结了该领域的研究进展和当前未解决的问题。
Jun, 2018
该研究提出了两种用于抽象摘要任务的奖励函数:RwB-Hinge 和 RISK。实验结果表明,这些函数在以 NLL 为基线的基础上实现了一致的性能提升。
Jun, 2021
给定一个包含多个次优专家行为的问题,我们将逆向强化学习(IRL)方法扩展到了这种情况,研究了与给定专家集兼容的奖励函数的理论性质,并分析了使用生成模型估计可行奖励集的统计复杂性,得到了一个具有极小极大最优性的均匀采样算法。
Jan, 2024