文本蕴涵中的比喻语言
FLUTE 是一个包含 9000 个各类比喻语言例子的数据集,使用 GPT-3、众包工人和专家注释人员构建。在该研究中,T5 模型 fine-tuned 后的基准性能表明,我们的数据集通过文本解释可以让我们更好地理解比喻语言。
May, 2022
本论文介绍了一种用于比较不同 NLP 系统语义理解能力的统一性评估框架 ——Recognizing Textual Entailment (RTE),并提供了评估 NLP 系统推理能力的不同方法的概述,重点介绍了 RTE 数据集的特点及其最新研究进展,提出了利用注重特定语言现象的新引入的 RTE 数据集来评估 NLP 系统的建议。
Oct, 2020
本文介绍 PaRTE,一组 1126 个文本蕴含例子,用来评估模型是否对改写具有鲁棒性。文章指出,如果 RTE 模型真正理解语言,那么它们的预测应该在具有相同意义的输入之间保持一致。作者使用这个评估集合以确定 RTE 模型在对例子进行改写时是否会改变它们的预测。通过实验发现,当文本改写时,现代模型对 8-16% 的例子进行了预测更改,这表明仍有提高空间。
Jun, 2023
本研究提出了 “形象化语言图像识别” 数据集,探讨了视觉和语言模型理解多模态形象化语言的难点,并借助基准任务和基线模型初步研究了这一问题。结果表明,所有的模型在多模态形象化语言理解上都不如人类。该数据集和基准任务将促进模型更好地理解形象化语言。
Mar, 2023
提出了一个基于将文本转换为抽象意义表示(AMR)图的新型流水线,通过预训练的 AMR 解析器将 AMR 图转换为命题逻辑,并使用 SAT 求解器进行自动推理,引入了松弛方法以允许替换或遗忘某些命题。实验结果表明该流水线在四个 Recognizing Textual Entailment 数据集上表现良好。
May, 2024
本文创建了适用于印地语、印尼语、爪哇语、康纳达语、巽他语、斯瓦希里语和约鲁巴语等七种不同语言的比喻推理数据集,并评估了多语言语言模型对于处理比喻语言的能力。研究发现各语言间的比喻表达依赖于文化和区域概念,并提出了需要在模型训练中暴露于更广泛的语言和文化变化中的必要性。
May, 2023
我们通过构建和评估直观的基于证明的文本蕴涵树,消除对脆弱形式逻辑的依赖,提出了一种一致且理论基础的方法来注释解构蕴涵的数据集,我们发现生成的 RDTE 数据集在内部一致性上比以前的数据集高出 9%,并且通过在现代神经符号推理引擎中使用 RDTE 导向的蕴涵分类器进行训练,显著提高了文本推理的结果(准确性和证明质量),说明了这一进展在实践中的益处。
Feb, 2024
本文针对 20 个有趣的文本蕴涵识别 (RTE) 例子,从基于知识的视角进行分析,试图回答推断 T 是否蕴涵 H 所需的世界知识是什么。分析的重点放在 BLUE 系统未能正确回答并需要世界知识的例子上,这些例子通常在 T 和 H 之间有很高的语义和词汇重合度,并且大多数当前的 RTE 系统很难正确回答。
Jun, 2018