释义与文本蕴涵方法调查
本论文研究语言和计算方面在短语、从句、句子和段落之间可能存在的意义关系,特别关注了近义词替换、文本蕴涵、矛盾和语义相似性,并探讨了量化语义相似度的不同方法,以及自动化的近义词识别。
Aug, 2022
通过文献综述和提出分类法,本研究对 25 个已知的改写(子)任务进行整理和组织。使用分类器识别给定改写实例适用的任务,发现已知改写语料库中特定任务实例的分布差异很大。这意味着在没有明确定义相应改写条件的情况下使用这些语料库会导致不可比较和误导性的结果。
Mar, 2024
本文介绍了一种基于语言约束的相似性搜索方法,用于自动产生大规模对齐语料库,以解决基于神经网络的释义生成面临的数据缺乏问题。该方法在意大利语的情况下进行评估,并使用基于指针的深度神经网络架构实验。
Feb, 2024
利用释义学习问题表达的多样性来提高询问回答系统在 Freebase 和句子选择上的准确性。通过训练端到端来直接学习最有可能产生正确答案的语言表达,得到了有竞争力的结果。
Aug, 2017
本研究提出一种通过语义关系自然推导证明来检测词组知识的方法,利用部分变量协同作图重构以及诱导意义呈现的子图对齐算法,可自动检测各种不存在于现有词组数据库的词组,进而提高了文本推理任务的准确率。
Apr, 2018
本文提出了一种新的任务 iParaphrasing,通过提取基于视觉的复述词(VGPs)来改善语言和图像多模态任务的性能,使用各种现有方法和基于神经网络的图像注意力方法建模 VGPs 之间的相似性并报告了结果。
Jun, 2018
本文旨在分析大型语言模型如 GPT-4 和 ChatGPT 等的语言生成和改写能力的特点和限制及其对学术诚信的挑战,探讨人工改写和机器改写之间的区别,并对常用的数据集进行综合分析和评估,结果显示自动生成文本的水平仍不及人类普及水平,适合于语义多样性语料的 TF-IDF 方法的效果最好,同时,发现了四个语义多样性和挑战性最高的数据集。
Mar, 2023
通过考虑多种相关性信号,我们将多跳问题回答的证据检索任务划分为两个子任务:语义文本相似度和推理相似度检索。我们提出了两种集成模型 EAR 和 EARnest,分别处理每个子任务,然后考虑不同的相关性信号对句子进行重新排序。在 HotpotQA 上的实验证明,我们的模型不仅显著优于基于单一检索模型,而且比两个直观的集成基准模型更有效。
Nov, 2023
当前的复述生成和检测方法在相似性评分上过于依赖于单一的通用评分,忽视了语言的复杂语言属性。本文引入了两个新的任务来解决这个缺点,通过考虑特定文本位置上的复述类型 - 特定的语言扰动。我们将这些任务命名为复述类型生成和复述类型检测。我们的结果表明,虽然目前的技术在二元分类场景即复述或非复述上表现良好,但细粒度的复述类型的包含带来了显著的挑战。尽管大多数方法在生成和检测常规语义相似内容方面表现出色,但它们未能理解所操作的固有语言变量。在生成和识别复述类型训练的模型也在没有这些任务的情况下显示出改进。另外,扩展这些模型进一步提高了它们理解复述类型的能力。我们相信复述类型可以为开发复述模型和解决未来任务的开启一种新的范式。
Oct, 2023