利用点互信息的非监督式抽取式摘要
研究了两种新策略以提高自动抽取摘要的句子相似度估计,其中对比学习优化了文本级目标,同时使用互相学习增强句子相似度估计与句子重要性排名之间的关系。实验结果显示了策略的有效性。
Feb, 2023
本文提出了一种使用 transformer 自注意力机制进行无监督文本摘要提取的方法,并在 CNN / DailyMail 和 New York Times 数据集上证明其优于现有的无监督模型,且不太依赖于句子位置。
Oct, 2020
本文提出了一种使用语言建模的无监督方法来对句子进行摘要,该方法使用了两种语言模型,并使用专业领域的语言模型来保持持续的上下文匹配,同时保持输出的流畅性,实验表明,该方法具有良好的性能。
Jul, 2019
本研究探讨了一种基于多篇文献的主题导向信息压缩技术,采用实证方法和两种无监督机器学习技术,比较它们的效果,同时通过提取不同的词汇特征和局部搜索技术,学习各种特征的权重值,最终实现了基于查询的自动摘要产生。
Jan, 2014
本文提出了一种针对新闻摘要自动提取的无监督方法,该方法采用神经网络模型并结合基于图论的排名算法,使用 BERT 模型来更好地捕获句子意义,显著超过强基线的效果。
Jun, 2019
本文提出了一种基于无监督的基于图的排名模型,用于提取科学文献的摘要。我们的方法假定源文档采用两级分层图表示,并利用不对称的位置提示来确定句子的重要性。在 PubMed 和 arXiv 数据集上的结果表明,我们的方法在自动指标和人工评价方面优于强无监督基线。此外,其性能与许多基于监督学习的方法相当。这些结果表明,篇章结构中的模式是确定科学文章重要性的强有力信号。
May, 2020
本研究旨在通过引入胶囊网络的相似度测量来加强基于 DPP 的多文档摘要方法,以解决大量冗余信息和训练数据短缺等难题。我们使用基于表面形式和语义信息的新相似度测量方法来评估句子对之间的冗余程度,并表明我们改进后的 DPP 系统具有更为出色的表现,超越了基准数据集上的强大摘要基线。
May, 2019
本文介绍了一种名为 Ranksum 的基于多维句子特征排名融合的单文本抽取式摘要方法,通过提取每个句子的主题信息、语义内容、显著关键词和位置,然后在无监督的方式下使用加权融合四个分数,将句子按照重要性进行排序。该方法利用概率主题模型确定主题排名,使用句子嵌入来捕捉语义信息,通过 Siamese 网络生成抽象句子表示,并利用图论方法找到文档中的重要关键词和相关句子排名,在摘要中采用基于二元组、三元组和句子嵌入的句子新颖性度量来消除冗余句子,最后融合所有特征计算出文档中每个句子的最终得分。实验结果表明,该方法在公开的 CNN/DailyMail 和 DUC 2002 摘要数据集上优于其他现有最先进的摘要方法。
Feb, 2024
该论文提出了一种无需参考文献且无需训练的摘要评估度量方法,包括中心性加权相关度分数和自我参考冗余分数。实验结果表明,该方法在单篇和多篇文档摘要评估方面显著优于现有方法。
Jun, 2021