面向相关文档中未监督识别语义差异的研究
本文介绍了一个训练多语言 BERT 模型的策略,通过学习排列变异的不同粒度的合成样本来提高细粒度语义差异的预测和注释。本文还推出一个新的数据集,旨在评估我们的模型在英语 - 法语两种语言之间的语义分歧上的标注效果。结果表明,相对于强的句子级相似度模型,学习排列有助于更准确地检测细粒度句子级分歧,而令牌级别的预测具有进一步区分粗细颗粒差异的潜力。
Oct, 2020
本文提出了一种新方法 RankCSE,将排名一致性和排名蒸馏与对比学习相结合,用于无监督学习句子表示,实现了语义区分的句子表示,该方法在语义文本相似性任务和转移任务中表现出优异的性能。
May, 2023
我们提出了一种神经方法来学习语义相关性,并通过学习单词对句子或单词到单词的关系分数来改善文本识别性能,证明了在识别图像中的文本时,语义相关性可以优于其他度量标准。
Sep, 2019
本文提出了一种基于主观注释的新型监督学习方法来学习统计句子相关性模型,该模型由大规模背景知识语料库中的文本单位关联的参数化共现统计信息组成,并提出了一种高效的算法来从相关性偏好的训练样本中学习语义模型,方法独立于语料库、适用于任何足够大的(非结构化)文本集合,并且可以为特定用户或用户组拟合语义模型。通过广泛的小到大规模实验结果表明,这种方法是有效的,竞争力强。
Nov, 2013
本文引入了一种无监督的辨别模型,用于在线文档检索。我们仅使用文本证据,通过无监督学习分布式词表示来避免显式特征工程。我们将我们的模型与最先进的无监督统计向量空间和概率生成方法进行比较,并发现我们的模型在大多数情况下可以与监督方法匹配,且算法成本较低,因此可以取得与所谓的基于档案的方法相同的检索性能水平。
Aug, 2016
本文提出一种基于跨语言句嵌入的无监督打分函数,用于计算不同语言中文档之间的语义距离,从而指导文档对齐算法以适当地匹配跨语言 Web 文档,并在不同语言对中显著提高对齐效果。
Jan, 2020
提出了一种基于 Word Mover's Distance 计算单词间距离的查询 - 文档相似度测量方法,利用神经词嵌入在检索无直接匹配的情况下发现相关词,并将其与 BM25 相结合,结果在 TREC Genomics 数据上平均精度平均提高 12%,在来自 PubMed 搜索日志的真实数据集上,结合学习排序的方法,正确率提高了 25%,表明该方法与 BM25 的结合可以产生更出色的性能。
Aug, 2016
本文提出了一种基于 Transformer 模型的采样策略,用于减轻采样偏差以及识别文档内部的复杂模式,并实验验证了模型的有效性,从而实现了无监督图像 - 句子匹配。
Mar, 2021
该研究提出了一种基于词向量的跨语义相似度计算方法,只需要一个有限的单词翻译库,能够适用于几乎所有语言对,达到与监督和资源密集型方法相近的表现,在可比较语料库中提取平行句子和跨语言抄袭检测任务中得到与现有模型相当的性能。
Jan, 2018