基于语义相关性的文本识别再排序
该篇研究论文通过使用 BERT 模型进行有监督和无监督的学习方法,在 SemRel-2024 任务中取得了显著的结果,包括在 MSA 中获得了 0.49 的 Spearman 相关系数的第一名,以及在摩洛哥语和阿尔及利亚语中分别获得了 0.83 和 0.53 的高分。
May, 2024
本文提出了一种基于主观注释的新型监督学习方法来学习统计句子相关性模型,该模型由大规模背景知识语料库中的文本单位关联的参数化共现统计信息组成,并提出了一种高效的算法来从相关性偏好的训练样本中学习语义模型,方法独立于语料库、适用于任何足够大的(非结构化)文本集合,并且可以为特定用户或用户组拟合语义模型。通过广泛的小到大规模实验结果表明,这种方法是有效的,竞争力强。
Nov, 2013
通过提取语料库中词汇的共现模式来实现无监督学习,学习不仅代表个体单词的表示,还明确捕捉代表单词间语义关联的词向量表示,并通过联合权重和二元分类器来描述单词间的语义关系,取得了普遍类比检测三个基准数据集中的显著性优势。
May, 2015
提出了一种基于 Word Mover's Distance 计算单词间距离的查询 - 文档相似度测量方法,利用神经词嵌入在检索无直接匹配的情况下发现相关词,并将其与 BM25 相结合,结果在 TREC Genomics 数据上平均精度平均提高 12%,在来自 PubMed 搜索日志的真实数据集上,结合学习排序的方法,正确率提高了 25%,表明该方法与 BM25 的结合可以产生更出色的性能。
Aug, 2016
本文介绍一个新的数据集 ——STR-2022,该数据集包含 5,500 个英文句子对,用比较注释框架手动注释,得出精细的分数,用于探索相关性和评估自动句子表示方法及下游的自然语言处理任务。
Oct, 2021
研究了在信息检索中识别文本蕴含问题的模型,使用了多种变量的神经网络模型,提出了基本的蕴含证据集成模型并展示了其有效性,同时引入了一个基准数据集并在其上进行了实验,并应用该模型于多选题答案排序任务达到了最新的研究效果。
May, 2016
本文针对词嵌入模型在信息检索任务中存在的问题及其局限性,提出了一种基于 word2vec Skip-Gram 模型的神经网络模型,通过显式向量表示的方式,增加了模型的可解释性和准确性,实现了查询词汇的局部信息融合,提高了指定任务状态下的表现表现。
Jul, 2017
本文研究学习者文章中句子级提示相关性评估的任务,在两个学习者写作数据集上评估使用单词重叠、神经嵌入和神经合成模型的各种系统。我们提出了一种新的句子级相似度计算方法,该方法学习调整针对特定任务的预训练单词嵌入的权重,相较于其他相关基线模型,实现了显著更高的准确性。
Jun, 2016
本书主要介绍语义相似度估计及其它语义度量学科的两种最先进的方法:自然语言处理技术和语义模型以及基于语义网络、词库或本体论的计算机可读的知识形式。它的目的是为初学者和研究人员提供更好地理解语义相似度估计和更一般的语义度量。
Apr, 2017