基于语义相关性的文本识别再排序

EMNLPSep, 2019

基于语义相关性的文本识别再排序

Semantic Relatedness Based Re-ranker for Text Spotting

Ahmed Sabir, Francesc Moreno-Noguer, Lluís Padró

TL;DR我们提出了一种神经方法来学习语义相关性，并通过学习单词对句子或单词到单词的关系分数来改善文本识别性能，证明了在识别图像中的文本时，语义相关性可以优于其他度量标准。

Abstract

Applications such as textual entailment, plagiarism detection or document clustering rely on the notion of semantic similarity, and are usually approached with dimension reduction techniques like LDA or with embedding-based neural approaches. We present a scenario where semantic similarity is not enough, and we devise a →

发现论文，激发创造

NLU-STR 在 SemEval-2024 任务 1 中的应用：基于生成的增强和基于编码器的评分方法用于语义文本相关性

该篇研究论文通过使用 BERT 模型进行有监督和无监督的学习方法，在 SemRel-2024 任务中取得了显著的结果，包括在 MSA 中获得了 0.49 的 Spearman 相关系数的第一名，以及在摩洛哥语和阿尔及利亚语中分别获得了 0.83 和 0.53 的高分。

May, 2024

语义排序：个性化语义相关性的监督学习方法

本文提出了一种基于主观注释的新型监督学习方法来学习统计句子相关性模型，该模型由大规模背景知识语料库中的文本单位关联的参数化共现统计信息组成，并提出了一种高效的算法来从相关性偏好的训练样本中学习语义模型，方法独立于语料库、适用于任何足够大的（非结构化）文本集合，并且可以为特定用户或用户组拟合语义模型。通过广泛的小到大规模实验结果表明，这种方法是有效的，竞争力强。

Nov, 2013

将语义关系嵌入到词表示中

通过提取语料库中词汇的共现模式来实现无监督学习，学习不仅代表个体单词的表示，还明确捕捉代表单词间语义关联的词向量表示，并通过联合权重和二元分类器来描述单词间的语义关系，取得了普遍类比检测三个基准数据集中的显著性优势。

May, 2015

弥合差距：有效映射 PubMed 查询与文档的语义相似度度量

提出了一种基于 Word Mover's Distance 计算单词间距离的查询 - 文档相似度测量方法，利用神经词嵌入在检索无直接匹配的情况下发现相关词，并将其与 BM25 相结合，结果在 TREC Genomics 数据上平均精度平均提高 12％，在来自 PubMed 搜索日志的真实数据集上，结合学习排序的方法，正确率提高了 25％，表明该方法与 BM25 的结合可以产生更出色的性能。

Aug, 2016

词汇语义增强的神经词向量

通过深度度量学习进行后处理可以提高神经语言模型中语义相似度推断的效果，并将层次拟合用于建模 IS-A 层次中的语义相似性细微差别。

Oct, 2022

句子语义相关的原因：一个文本相关性数据集和实证研究

本文介绍一个新的数据集 ——STR-2022，该数据集包含 5,500 个英文句子对，用比较注释框架手动注释，得出精细的分数，用于探索相关性和评估自动句子表示方法及下游的自然语言处理任务。

Oct, 2021

关于相关性和蕴含的句子嵌入联合学习

研究了在信息检索中识别文本蕴含问题的模型，使用了多种变量的神经网络模型，提出了基本的蕴含证据集成模型并展示了其有效性，同时引入了一个基准数据集并在其上进行了实验，并应用该模型于多选题答案排序任务达到了最新的研究效果。

May, 2016

将相关文档纳入 word2vec 中

本文针对词嵌入模型在信息检索任务中存在的问题及其局限性，提出了一种基于 word2vec Skip-Gram 模型的神经网络模型，通过显式向量表示的方式，增加了模型的可解释性和准确性，实现了查询词汇的局部信息融合，提高了指定任务状态下的表现表现。

Jul, 2017

学生论文中细粒度的主题相关性评估的句子相似度测量

本文研究学习者文章中句子级提示相关性评估的任务，在两个学习者写作数据集上评估使用单词重叠、神经嵌入和神经合成模型的各种系统。我们提出了一种新的句子级相似度计算方法，该方法学习调整针对特定任务的预训练单词嵌入的权重，相较于其他相关基线模型，实现了显著更高的准确性。

Jun, 2016

自然语言和本体分析的语义相似性

本书主要介绍语义相似度估计及其它语义度量学科的两种最先进的方法：自然语言处理技术和语义模型以及基于语义网络、词库或本体论的计算机可读的知识形式。它的目的是为初学者和研究人员提供更好地理解语义相似度估计和更一般的语义度量。

Apr, 2017