基于词级抽取的无监督句子摘要的离散优化
本文围绕无监督的抽取式文档摘要问题,将问题建模为稀疏自回归问题并通过凸性、约束性问题进行近似解决。我们使用专用的 Frank-Wolfe 算法来解决它。我们的方法通过使用语义嵌入技术,在两个无监督方法的标准 ROUGE 分数和语义 ROUGE 分数上效果更好,并在高度释义的摘要中特别有效。
Aug, 2022
提出了一种用于单文档大意提取的全新算法,能够通过强化学习目标全局优化 ROUGE 评估指标,并在 CNN 和 DailyMail 数据集上进行了实验,展示它在人工和自动评估中均优于现有抽取和生成式提取系统的神经大意提取模型。
Feb, 2018
研究了两种新策略以提高自动抽取摘要的句子相似度估计,其中对比学习优化了文本级目标,同时使用互相学习增强句子相似度估计与句子重要性排名之间的关系。实验结果显示了策略的有效性。
Feb, 2023
本篇论文提出了一种基于强化学习的抽象模型,用于无人工摘要的句子摘要,同时还开发了一种多摘要机制来提高摘要质量。实验结果表明,该模型明显优于抽象和提取式模型,经常生成未包含在原始文本中的新单词。
Dec, 2022
一种基于孪生网络的无监督抽取式摘要模型,引入了可训练的双向预测目标,在选定的摘要和原始文档之间进行训练。与基于中心性排名的方法不同,我们的抽取式评分器可以进行端到端训练,无需位置假设。此外,我们通过近似 0-1 背包问题求解器引入了一个可微分的长度控制模块,用于端到端可控制长度的抽取。实验证明,相同的句子编码器下,我们的无监督方法在很大程度上优于基于中心性排名的基准方法。在长度控制能力方面,通过我们可训练的背包模块,性能始终优于强基准方法,而无需进行端到端训练。人工评估进一步证明,我们的方法在相关性和一致性方面优于基准方法。
Dec, 2023
论文提出了一种基于神经网络和连续句子特征的数据驱动型抽取式摘要方法,采用层级文档编码器和基于注意力机制的提取器的通用框架,能够训练不同的摘要模型(提取句子或单词),在大规模语料库上进行实验结果表明,该方法在不需要语言注解的情况下取得了与现有技术相当的效果。
Mar, 2016
本文提出了一种使用语言建模的无监督方法来对句子进行摘要,该方法使用了两种语言模型,并使用专业领域的语言模型来保持持续的上下文匹配,同时保持输出的流畅性,实验表明,该方法具有良好的性能。
Jul, 2019
本文提出了基于 ILP 框架提取每个文档集的一组候选摘要,然后利用排名 SVM 进行摘要重新排名的方法,结果通过 DUC 基准数据集验证了方法的有效性和鲁棒性。
Jul, 2015
本文比较了强化学习(RL)和基于句法的模型(如基于词性标注和依存信息的模型)两种文摘方法的优劣,并探究了它们在生成摘要时的影响,得出了使用两种方法的联合模型在质量评估方面表现最佳,但仅使用强化学习的训练无需更少的参数和更快的训练收敛即可得到与基于句法模型相近的好结果。
Dec, 2019