文本类比解析:类比事实中共享和比较的内容
本篇论文介绍了一种将分布式语义学从单个单词扩展到词对、短语和句子等的方法,通过使用组件词中的成对相似性来比较两个元组,从而实现关系相似性(类比)和组成相似性(释义)之间的转换,并通过监督学习生成组合函数。在衡量单词对之间的关系相似性(SAT 类比和 SemEval 2012 任务 2)和名词修饰短语和单个词之间的组成相似性方面取得了最优结果。
Oct, 2013
本论文研究语言和计算方面在短语、从句、句子和段落之间可能存在的意义关系,特别关注了近义词替换、文本蕴涵、矛盾和语义相似性,并探讨了量化语义相似度的不同方法,以及自动化的近义词识别。
Aug, 2022
本文研究了提取文本中百分比的定量事实的问题,并将其作为序列标注问题,介绍了跳过机制来解决部分 / 整体和其相应百分比之间的巨大间隔。实验结果表明,学习序列标注中的跳过机制很有希望,该方法可以应用于自动信息图表生成。
Oct, 2021
本研究通过探索一种更具有现实性且具有挑战性的方法,基于关系相似性来找到不同域之间的映射,使用自动提取文本中实体及其关系并进行解释性的可扩展性算法,从大量的自然语言过程文本数据集中提取类比,并证明该算法对于文本的释义具有鲁棒性。
Oct, 2022
本研究旨在通过自动提取社交媒体对话中的论点,计算其之间的相似度以识别和归纳辩论方面,从而产生类似于辩论网站上的自动摘要。结果表明,在三个不同的辩题上,本研究的相关性平均值为 0.63,优于几个基准模型。
Sep, 2017
本文介绍了一种测量关联相似性的方法 —— 潜在关联分析(LRA),该方法在信息提取、词义消岐和信息检索等领域具有潜在应用价值,并且与人类平均水平相当地达到了 374 个类比问题的 56% 的得分,同时,在语义关系分类的问题上,LRA 较 VSM 也取得了相似的增益。
Aug, 2006
人类认知的核心能力之一是类比;在面对新的情境时,我们经常将先前的经验从其他领域转化过来。多数关于计算类比的研究主要依赖于复杂的、手工制作的输入。本研究通过减少输入要求,只需要对实体进行映射,自动提取常识表示并将其用于实体之间的映射。与以往的工作不同,我们的框架能够处理部分类比并提出新的实体添加。此外,我们的方法的输出易于解释,允许用户理解为什么选择了特定的映射。实验证明,我们的模型能够正确映射 81.2% 的典型的 2x2 类比问题(猜测水平 = 50%)。在更大的问题上,它的准确率达到 77.8%(平均猜测水平 = 13.1%)。在另一个实验中,我们展示了我们的算法优于人类表现,并且自动提出的新实体与人类的建议类似。我们希望这项工作能通过为更灵活、更现实的输入要求铺平道路来推动计算类比的发展。
Nov, 2023
通过设计数据生成流水线,利用最先进的大型语言模型创建复杂的基于段落的类比,我们创建了 ProPara-Logy 数据集,用于科学过程之间的类比;在二进制和多选题设置中,我们测试了 LLMs 和人类的类比识别,发现在轻量级监督之后人类的性能优于最佳模型(13%差异),同时证明我们的银标准集对于训练模型很有用;最后,我们展示了具有挑战性的干扰物混淆 LLMs 但不混淆人类,希望我们的流水线能够鼓励该新兴领域的研究。
Mar, 2024