面向相关文档中未监督识别语义差异的研究

May, 2023

面向相关文档中未监督识别语义差异的研究

Towards Unsupervised Recognition of Semantic Differences in Related Documents

Jannis Vamvas, Rico Sennrich

TL;DR研究了三种无监督的方法以实现识别语义差异的任务，并发现基于词对齐和句子级对比学习的方法与金标签的相关性较高，但所有无监督方法仍有很大的改进空间。

Abstract

Automatically highlighting words that cause semantic differences between two documents could be useful for a wide range of applications. We formulate recognizing semantic differences (RSD) as a →

semantic differences token-level regression unsupervised approaches masked language model word alignment

发现论文，激发创造

通过语境化语言模型和分层推断进行自监督文档相似性排名

提出了一种自我监督方法 SDR，可以用于任意长度的文档相似度计算，评估结果显示，SDR 在所有指标上显著优于其它方法。

Jun, 2021

无需监督学习排名检测细粒度跨语义差异

本文介绍了一个训练多语言 BERT 模型的策略，通过学习排列变异的不同粒度的合成样本来提高细粒度语义差异的预测和注释。本文还推出一个新的数据集，旨在评估我们的模型在英语 - 法语两种语言之间的语义分歧上的标注效果。结果表明，相对于强的句子级相似度模型，学习排列有助于更准确地检测细粒度句子级分歧，而令牌级别的预测具有进一步区分粗细颗粒差异的潜力。

Oct, 2020

RankCSE: 无监督学习排序的句子表示

本文提出了一种新方法 RankCSE，将排名一致性和排名蒸馏与对比学习相结合，用于无监督学习句子表示，实现了语义区分的句子表示，该方法在语义文本相似性任务和转移任务中表现出优异的性能。

May, 2023

基于语义相关性的文本识别再排序

我们提出了一种神经方法来学习语义相关性，并通过学习单词对句子或单词到单词的关系分数来改善文本识别性能，证明了在识别图像中的文本时，语义相关性可以优于其他度量标准。

Sep, 2019

语义排序：个性化语义相关性的监督学习方法

本文提出了一种基于主观注释的新型监督学习方法来学习统计句子相关性模型，该模型由大规模背景知识语料库中的文本单位关联的参数化共现统计信息组成，并提出了一种高效的算法来从相关性偏好的训练样本中学习语义模型，方法独立于语料库、适用于任何足够大的（非结构化）文本集合，并且可以为特定用户或用户组拟合语义模型。通过广泛的小到大规模实验结果表明，这种方法是有效的，竞争力强。

Nov, 2013

无监督，高效和语义型专家检索

本文引入了一种无监督的辨别模型，用于在线文档检索。我们仅使用文本证据，通过无监督学习分布式词表示来避免显式特征工程。我们将我们的模型与最先进的无监督统计向量空间和概率生成方法进行比较，并发现我们的模型在大多数情况下可以与监督方法匹配，且算法成本较低，因此可以取得与所谓的基于档案的方法相同的检索性能水平。

Aug, 2016

基于跨语言句子移位距离的大规模多语言文档对齐

本文提出一种基于跨语言句嵌入的无监督打分函数，用于计算不同语言中文档之间的语义距离，从而指导文档对齐算法以适当地匹配跨语言 Web 文档，并在不同语言对中显著提高对齐效果。

Jan, 2020

弥合差距：有效映射 PubMed 查询与文档的语义相似度度量

提出了一种基于 Word Mover's Distance 计算单词间距离的查询 - 文档相似度测量方法，利用神经词嵌入在检索无直接匹配的情况下发现相关词，并将其与 BM25 相结合，结果在 TREC Genomics 数据上平均精度平均提高 12％，在来自 PubMed 搜索日志的真实数据集上，结合学习排序的方法，正确率提高了 25％，表明该方法与 BM25 的结合可以产生更出色的性能。

Aug, 2016

利用文档级结构信息进行图像 - 句子匹配的无监督采样方法

本文提出了一种基于 Transformer 模型的采样策略，用于减轻采样偏差以及识别文档内部的复杂模式，并实验验证了模型的有效性，从而实现了无监督图像 - 句子匹配。

Mar, 2021

一种轻量级的跨语言语义文本相似度方法

该研究提出了一种基于词向量的跨语义相似度计算方法，只需要一个有限的单词翻译库，能够适用于几乎所有语言对，达到与监督和资源密集型方法相近的表现，在可比较语料库中提取平行句子和跨语言抄袭检测任务中得到与现有模型相当的性能。

Jan, 2018