三种识别词汇蕴涵的方法实验
该论文提出了一种新的后处理方法 LEAR(词汇蕴涵吸引 - 排斥),将任何输入的词向量空间转换为重视词汇蕴涵关系(LE)的不对称关系,通过将外部语言约束(例如 WordNet 链接)注入到初始向量空间中,LE 特化过程将真正的下位词 - 上位词对在转换后的欧几里得空间中靠近。同时,联合目标使用对称余弦距离来强制实施语义相似性,从而使向量空间同时专门用于词汇关系。LEAR 专业化模型在上位词方向性,上位词检测和分级词汇蕴涵任务中实现了最先进的性能,证明了所提出的不对称专业化模型的有效性和鲁棒性。
Oct, 2017
本文介绍了一种测量关联相似性的方法 —— 潜在关联分析(LRA),该方法在信息提取、词义消岐和信息检索等领域具有潜在应用价值,并且与人类平均水平相当地达到了 374 个类比问题的 56% 的得分,同时,在语义关系分类的问题上,LRA 较 VSM 也取得了相似的增益。
Aug, 2006
通过提取语料库中词汇的共现模式来实现无监督学习,学习不仅代表个体单词的表示,还明确捕捉代表单词间语义关联的词向量表示,并通过联合权重和二元分类器来描述单词间的语义关系,取得了普遍类比检测三个基准数据集中的显著性优势。
May, 2015
本文介绍了隐含关系分析(LRA)的方法,其是一种测量语义相似性的方法,通过将两个词对之间的语义关系相似性传达为向量的角度余弦计算两个词对的相似性。LRA 通过从语料库中自动提取模式,使用奇异值分解来平滑频率数据,并使用同义词重构词对,从而扩展 VSM 方法。在两个任务(多项选择词类比问题和分类名词修饰语的语义关系)中,LRA 取得了最先进的结果,并在类比问题上达到了人类水平的性能,同时显着超过了 VSM 在这两个任务上的性能。
Aug, 2005
本文提出了一种新的基于阈值的语义文本表示方法,并结合机器学习算法应用语义和词汇特征对文本 - 假设对进行分类,该技术有效地丰富了文本的语义信息,在文字蕴涵分类任务中在意义理解方面的表现明显优于已知方法
Oct, 2022
本文提出了一种基于模式的新模型,神经潜在关系分析(NLRA),旨在捕捉向量空间中词汇关系的语义,可以泛化词对和词汇 - 语法模式的共现,同时解决了传统基于模式的模型中遇到的严重数据稀疏性问题,实验结果表明 NLRA 在测量关系相似度方面的表现优于先前的基于模式的模型,同时与矢量偏移模型相结合时可以达到与利用其他语义关系数据的现有模型相当的性能。
Sep, 2018
通过考虑多种相关性信号,我们将多跳问题回答的证据检索任务划分为两个子任务:语义文本相似度和推理相似度检索。我们提出了两种集成模型 EAR 和 EARnest,分别处理每个子任务,然后考虑不同的相关性信号对句子进行重新排序。在 HotpotQA 上的实验证明,我们的模型不仅显著优于基于单一检索模型,而且比两个直观的集成基准模型更有效。
Nov, 2023
基于标注数据的 A:R vs B:R 方法构建了图像相似度模型,并采用集成模型处理稀疏采样和基于上下文数据的偏差,测试结果表明,该集成模型优于单个上下文敏感模型、混合图像数据和现有相似度模型,证明基于上下文标注和模型训练在适当的集成方法下可以有效克服稀疏采样的限制。
Jan, 2024
HyperLex 是一份数据集和评估资源,旨在量化语义类别成员资格的范围,即类型关系,也称为下位词 - 上位词或词汇蕴含关系。通过将数百名英语母语者作为研究对象,我们证实了类别成员资格和下位词 - 上位词关系更多是渐进的而非二元的。通过将人的研究成果和自动系统的预测作比较,我们发现两者之间存在巨大的差距,讨论了改进语义模型的途径,并指出了改进评分 LE 系统的未来应用领域。
Aug, 2016