基于上下文的句子相似度

ACLMay, 2021

Sentence Similarity Based on Contexts

Xiaofei Sun, Yuxian Meng, Xiang Ao, Fei Wu, Tianwei Zhang...

TL;DR本文提出了一种基于上下文概率比较的新框架来解决语句相似度计算中受限于有标签数据大小以及无监督语言建模中训练和测试之间的差距的两大挑战，能在无监督学习中生成高质量语义相似性分数数据集并在不同数据集中显著提高了现有基线的性能。

Abstract

Existing methods to measure sentence similarity are faced with two challenges: (1) labeled datasets are usually limited in size, making them insufficient to train supervised neural models; (2) there is a training

发现论文，激发创造

基于上下文匹配的简单无监督摘要

本文提出了一种使用语言建模的无监督方法来对句子进行摘要，该方法使用了两种语言模型，并使用专业领域的语言模型来保持持续的上下文匹配，同时保持输出的流畅性，实验表明，该方法具有良好的性能。

Jul, 2019

学习句子表示的高效框架

本文提出一种从未标记数据中学习句子表示的简单有效的框架，通过将句子出现的上下文预测问题重新表述为分类问题，并基于句子向量表示来区分上下文句子和对比句子，并在多个下游 NLP 任务中展示了高质量的句子表示的超越性能以及训练时间的数量级加速。

Mar, 2018

句对打分：迈向文本理解的统一框架

本文提出新的统一框架，比较了常见的 IR 度量和神经模型在多个句子对分数任务和数据集上的性能，并尝试通过发布新的数据集来改进比较。我们提出了一种统一的开源软件框架，具有易于插拔的模型和任务，使我们能够尝试使用训练好的句子模型进行多任务复用并在 Ubuntu 对话数据集上提出了新的最优结果。

Mar, 2016

学生论文中细粒度的主题相关性评估的句子相似度测量

本文研究学习者文章中句子级提示相关性评估的任务，在两个学习者写作数据集上评估使用单词重叠、神经嵌入和神经合成模型的各种系统。我们提出了一种新的句子级相似度计算方法，该方法学习调整针对特定任务的预训练单词嵌入的权重，相较于其他相关基线模型，实现了显著更高的准确性。

Jun, 2016

用于字到句的视觉语义相似度在标题生成的应用：得到的经验教训

本文提出一种改进图像 - 字幕生成系统的方法，通过从视觉上下文的角度修订语言生成输出的 beam search，采取视觉语义量化概念，在单词和句子级别上匹配与图像相关的信息来选择最相关的输出作为字幕。该方法可作为后处理方法应用于任何字幕系统中。

Sep, 2022

通过词汇分解和组合学习句子相似度

本文提出了一个基于词汇语义分解和组合、双通道 CNN 模型的方法，不仅考虑输入两个句子的相似部分，同时也利用它们的不相似部分，从而可以更准确地比较句子相似度。实验表明，该模型在答案句子选择任务上取得了最好的表现，并在释义识别任务上取得可比较的结果。

Feb, 2016

基于注意力机制的非监督句级元嵌入来自上下文语言模型

提出了一种句子级元嵌入学习方法，利用不同的上下文化语言模型，通过无监督的学习方式学习句子嵌入，以满足不同需要的下游自然语言处理任务，实验证明提出的方法优于以往的方法和有监督的基线。

Apr, 2022

基于多模型精细非线性融合的语义相似度计算模型

该论文介绍了一种基于多模型非线性融合的新模型，通过使用基于词性、TF-IDF 和 word2vec-CNN 算法的 Jaccard 系数来分别衡量句子的相似度，输入加权向量到全连接神经网络，从而降低特征提取的细粒度，全局把握句子特征。实验结果表明，句子相似度计算方法的匹配率为 84%，模型的 F1 值为 75%。

Feb, 2022

上下文感知的语义相似度测量用于无监督词义消歧

本研究提出一种新的上下文感知的无监督词义消歧方法，通过将上下文信息纳入相似度量计算过程中，有效地管理文本中的词义模糊，从而提高了词义消歧的准确性并超越了现有的多种技术。

May, 2023

关于利用上下文预测学术论文句子的引用价值

探究在科学论文中预测引用价值的句子时，上下文作用的重要性，利用双向 LSTM 模型解决了该问题，并提出了一个新的基准数据集以及文档级别的训练 / 测试分配，通过误差分析揭示了上下文在预测引用价值方面的重要作用。

Apr, 2021