LexRank:基于图的词汇中心性作为文本摘要中的显著性
本文提出了一种针对新闻摘要自动提取的无监督方法,该方法采用神经网络模型并结合基于图论的排名算法,使用 BERT 模型来更好地捕获句子意义,显著超过强基线的效果。
Jun, 2019
本文介绍了针对文本数据的关键词提取和文本摘要的处理方法,介绍了一种基于 TextRank 算法的无监督学习方法,在其基础上提高了算法的效率,并针对其忽略了不同部分的语义相似性进行了改进。此外,还开发了一种基于该框架的主题聚类算法,可单独使用或作为生成摘要的一部分来解决文本覆盖问题。
Dec, 2022
研究了两种新策略以提高自动抽取摘要的句子相似度估计,其中对比学习优化了文本级目标,同时使用互相学习增强句子相似度估计与句子重要性排名之间的关系。实验结果显示了策略的有效性。
Feb, 2023
本文介绍了一种名为 Ranksum 的基于多维句子特征排名融合的单文本抽取式摘要方法,通过提取每个句子的主题信息、语义内容、显著关键词和位置,然后在无监督的方式下使用加权融合四个分数,将句子按照重要性进行排序。该方法利用概率主题模型确定主题排名,使用句子嵌入来捕捉语义信息,通过 Siamese 网络生成抽象句子表示,并利用图论方法找到文档中的重要关键词和相关句子排名,在摘要中采用基于二元组、三元组和句子嵌入的句子新颖性度量来消除冗余句子,最后融合所有特征计算出文档中每个句子的最终得分。实验结果表明,该方法在公开的 CNN/DailyMail 和 DUC 2002 摘要数据集上优于其他现有最先进的摘要方法。
Feb, 2024
本文介绍了一种基于 Biased TextRank 算法的内容提取方法,可以实现针对性的文本提取,应用包括文本的聚焦摘要和解释提取,通过在执行 TextRank 时修改随机重新开始概率实现,与现有自然语言处理方法相比,不需要监督,更快速和轻量级
Nov, 2020
本文提出了一种基于无监督的基于图的排名模型,用于提取科学文献的摘要。我们的方法假定源文档采用两级分层图表示,并利用不对称的位置提示来确定句子的重要性。在 PubMed 和 arXiv 数据集上的结果表明,我们的方法在自动指标和人工评价方面优于强无监督基线。此外,其性能与许多基于监督学习的方法相当。这些结果表明,篇章结构中的模式是确定科学文章重要性的强有力信号。
May, 2020
本文提出了一种通过在词汇分类结构和语料统计信息之间进行结合从而更好地度量语义空间内节点间语义距离的方法。这种综合方法结合了基于边缘计数方案的边缘方法和基于信息内容计算的节点方法,实现了对词对相似性评分数据集的超越性表现,与人类相似性判断的基准最高相关性值为 r=0.828,而在人类主体复制相同任务时可以观察到一个上界(r=0.885)。
Sep, 1997
本文提出了一种新方法 RankCSE,将排名一致性和排名蒸馏与对比学习相结合,用于无监督学习句子表示,实现了语义区分的句子表示,该方法在语义文本相似性任务和转移任务中表现出优异的性能。
May, 2023
本文研究学习者文章中句子级提示相关性评估的任务,在两个学习者写作数据集上评估使用单词重叠、神经嵌入和神经合成模型的各种系统。我们提出了一种新的句子级相似度计算方法,该方法学习调整针对特定任务的预训练单词嵌入的权重,相较于其他相关基线模型,实现了显著更高的准确性。
Jun, 2016
本研究探讨了一种基于多篇文献的主题导向信息压缩技术,采用实证方法和两种无监督机器学习技术,比较它们的效果,同时通过提取不同的词汇特征和局部搜索技术,学习各种特征的权重值,最终实现了基于查询的自动摘要产生。
Jan, 2014