语义相似性集成的自动设计:基于语法进化的方法
本文旨在全面概述自然语言处理领域中语义相似度计算的研究现状和各种方法及其优劣,将其归类为基于知识、基于语料库和基于深度神经网络等不同原理的方法,并希望能够促进新研究者的创新思路和实验。
Apr, 2020
本文分析了超过十余种测量两个短文本的语义相似性的方法,并使用一个新的标记为语义相似性的 14,000 句子数据集证明文献中使用的这些度量标准都不能够足够接近人的判断。虽然有一些最近提出的度量标准提供了具有可比性的结果,但 Word Mover Distance 被证明是目前测量改写文本的语义相似性的最合理的解决方案。
Apr, 2020
通过提出一系列的评估度量,本文对语义相似度度量的特征进行自动和可解释的评估,从而实现了对不同语义相似度度量方法行为的合理比较。通过对经典方法和最新方法的评估,我们的度量揭示了最近开发的度量在识别语义分布不匹配方面变得更好,而经典度量则对表面文本水平的扰动更加敏感。
Nov, 2022
本书主要介绍语义相似度估计及其它语义度量学科的两种最先进的方法:自然语言处理技术和语义模型以及基于语义网络、词库或本体论的计算机可读的知识形式。它的目的是为初学者和研究人员提供更好地理解语义相似度估计和更一般的语义度量。
Apr, 2017
本文介绍了一种简单但高效的无监督学习方法,用于训练分布式表示的句子嵌入。该方法在大多数基准任务中性能优于最先进的无监督模型,突显了所产生的通用句子嵌入的健壮性。
Mar, 2017
本文提出了一种基于语法进化的优化框架,以高效地找到适用于给定基准应用程序的最佳缓存配置,对 Mediabench 套件进行实验,结果显示我们的提议能够找到适当的缓存配置,平均改善了 62%。
Mar, 2023
这篇论文介绍了基于结构、信息内容和特征的语义相似度测量方法,并针对两个标准基准进行了分类和评估,目的是为研究人员和从业者选择适合其要求的最佳度量提供有效的评估。
Oct, 2013
该研究论文介绍了一种有效的数据抽样机制,通过基于文本信息而不经过计算密集型模型或其他密集预处理转换,将新数据点分类为语音识别难度桶。结果表明,使用该方法比随机预测提高了 93% 的 ASR 性能精确度,并对文本表示在语音模型中的影响提供了重要信息。此外,一系列的实验证明了使用 ASR 信息对模型进行细调的益处和挑战。与随机抽样相比,报告了 7% 的验证损失下降,针对高难度数据集的非局部聚合的 WER 降低了 7%,并且在数据集之间具有高语义相似性的局部聚合下,WER 降低了 1.8%。
Feb, 2024
本文提出了一种基于主观注释的新型监督学习方法来学习统计句子相关性模型,该模型由大规模背景知识语料库中的文本单位关联的参数化共现统计信息组成,并提出了一种高效的算法来从相关性偏好的训练样本中学习语义模型,方法独立于语料库、适用于任何足够大的(非结构化)文本集合,并且可以为特定用户或用户组拟合语义模型。通过广泛的小到大规模实验结果表明,这种方法是有效的,竞争力强。
Nov, 2013