上下文网络和无监督句子排序
本文提出了一种针对新闻摘要自动提取的无监督方法,该方法采用神经网络模型并结合基于图论的排名算法,使用 BERT 模型来更好地捕获句子意义,显著超过强基线的效果。
Jun, 2019
本论文提出了一个基于注意力机制的排序框架,旨在训练模型进行句子排序和辨别任务。该框架采用双向句子编码器和自注意力变换网络以获取与输入顺序无关的段落表示。同时,它能够使用各种基于排序的损失函数进行无缝训练,并在两个任务中应用。实验结果表明,该框架在多个评估指标上优于众多最先进的方法。同时,相对于点对排序损失函数,该框架在使用点对和列表排序损失函数时取得更好的结果,这表明将两个或多个句子的相对位置纳入损失函数有利于更好的学习。
Dec, 2019
本文提出了一种基于相邻句子的无监督句子编码器 RankEncoder,利用相邻句子约束进行训练,在语义文本相似度性能、相似句子对的有效性和普适性等方面都较好地表现,达到了 80.07% 的斯皮尔曼等级相关性,相较于最先进技术性能有 1.1% 的绝对提升,并且在相似句子对方面提升更为显着,为 1.73%,同时证明了 RankEncoder 可以普遍适用于现有的无监督句子编码器。
Sep, 2022
本文介绍了一种名为 Ranksum 的基于多维句子特征排名融合的单文本抽取式摘要方法,通过提取每个句子的主题信息、语义内容、显著关键词和位置,然后在无监督的方式下使用加权融合四个分数,将句子按照重要性进行排序。该方法利用概率主题模型确定主题排名,使用句子嵌入来捕捉语义信息,通过 Siamese 网络生成抽象句子表示,并利用图论方法找到文档中的重要关键词和相关句子排名,在摘要中采用基于二元组、三元组和句子嵌入的句子新颖性度量来消除冗余句子,最后融合所有特征计算出文档中每个句子的最终得分。实验结果表明,该方法在公开的 CNN/DailyMail 和 DUC 2002 摘要数据集上优于其他现有最先进的摘要方法。
Feb, 2024
本文提出了一种基于无监督的基于图的排名模型,用于提取科学文献的摘要。我们的方法假定源文档采用两级分层图表示,并利用不对称的位置提示来确定句子的重要性。在 PubMed 和 arXiv 数据集上的结果表明,我们的方法在自动指标和人工评价方面优于强无监督基线。此外,其性能与许多基于监督学习的方法相当。这些结果表明,篇章结构中的模式是确定科学文章重要性的强有力信号。
May, 2020
论文提出了一种面向社区问答平台的自动答案排序方法 —— 基于图的三重注意力网络(GTAN),通过图神经网络学习回答相关性和一个三重注意力方法生成回答排名分数,实验结果表明 GTAN 在三个实际 CQA 数据集上优于最先进的答案排名方法。
Mar, 2021
本论文提出了一种简单的神经第一阶段排序模型 CoRT,通过利用预训练语言模型(如 BERT)的上下文表示来补充基于术语的排名函数,从而在不影响查询时间的情况下提高候选集的召回率。使用 MS MARCO 数据集,展示了 CoRT 能够显著提高候选集的召回率,从而使得后续的重新排名器可以通过更少的候选集获得更好的结果。此外,我们还展示了使用 CoRT 进行段落检索具有惊人的低延迟。
Oct, 2020
本文提出了一种新方法 RankCSE,将排名一致性和排名蒸馏与对比学习相结合,用于无监督学习句子表示,实现了语义区分的句子表示,该方法在语义文本相似性任务和转移任务中表现出优异的性能。
May, 2023
研究一种使用 BERT 表示组成部分的句子的模型,结合指针网络和 ConceptNet 等知识,实现对文本语义相似性的可解释性分析。实验结果表明,该模型在 chunk alignment 任务上取得了显著的性能提升。
Jul, 2020