文本蕴涵中的比喻语言

ACLJun, 2021

Figurative Language in Recognizing Textual Entailment

Tuhin Chakrabarty, Debanjan Ghosh, Adam Poliak, Smaranda Muresan

TL;DR集合了五个 RTE 数据集的文章，聚焦于比喻语言，示例超过 12500 个，研究发现现有的 RTE 模型无法很好地捕捉比喻语言的不同方面，无法进行语用推断和世界知识推理。该研究提供了一个挑战性的测试平台来评估 RTE 模型。

Abstract

We introduce a collection of recognizing textual entailment (RTE) datasets focused on figurative language. We leverage five existing datasets annotated for a variety of →

recognizing textual entailment figurative language simile metaphor irony

发现论文，激发创造

FLUTE：通过文本解释理解比喻语言

FLUTE 是一个包含 9000 个各类比喻语言例子的数据集，使用 GPT-3、众包工人和专家注释人员构建。在该研究中，T5 模型 fine-tuned 后的基准性能表明，我们的数据集通过文本解释可以让我们更好地理解比喻语言。

May, 2022

一项文本蕴含识别的自然语言处理评估调查

本论文介绍了一种用于比较不同 NLP 系统语义理解能力的统一性评估框架 ——Recognizing Textual Entailment (RTE)，并提供了评估 NLP 系统推理能力的不同方法的概述，重点介绍了 RTE 数据集的特点及其最新研究进展，提出了利用注重特定语言现象的新引入的 RTE 数据集来评估 NLP 系统的建议。

Oct, 2020

评估文本蕴含模型的释义鲁棒性

本文介绍 PaRTE，一组 1126 个文本蕴含例子，用来评估模型是否对改写具有鲁棒性。文章指出，如果 RTE 模型真正理解语言，那么它们的预测应该在具有相同意义的输入之间保持一致。作者使用这个评估集合以确定 RTE 模型在对例子进行改写时是否会改变它们的预测。通过实验发现，当文本改写时，现代模型对 8-16% 的例子进行了预测更改，这表明仍有提高空间。

Jun, 2023

IRFL：修辞语言的图像识别

本研究提出了 “形象化语言图像识别” 数据集，探讨了视觉和语言模型理解多模态形象化语言的难点，并借助基准任务和基线模型初步研究了这一问题。结果表明，所有的模型在多模态形象化语言理解上都不如人类。该数据集和基准任务将促进模型更好地理解形象化语言。

Mar, 2023

自然语言句子之间蕴含和矛盾关系的识别：一种神经符号方法

提出了一个基于将文本转换为抽象意义表示（AMR）图的新型流水线，通过预训练的 AMR 解析器将 AMR 图转换为命题逻辑，并使用 SAT 求解器进行自动推理，引入了松弛方法以允许替换或遗忘某些命题。实验结果表明该流水线在四个 Recognizing Textual Entailment 数据集上表现良好。

May, 2024

解读叙述中的比喻语言

本文研究了两种非组合式比喻语言 (成语和比喻) 的解释，并提出了基于人类策略的知识增强模型，从而改善了区分和生成任务的表现，进一步缩小了与人类表现的差距。

Aug, 2021

多语言和多元文化的比喻语言理解

本文创建了适用于印地语、印尼语、爪哇语、康纳达语、巽他语、斯瓦希里语和约鲁巴语等七种不同语言的比喻推理数据集，并评估了多语言语言模型对于处理比喻语言的能力。研究发现各语言间的比喻表达依赖于文化和区域概念，并提出了需要在模型训练中暴露于更广泛的语言和文化变化中的必要性。

May, 2023

利用非正式逻辑增强系统化分解的自然语言推理

我们通过构建和评估直观的基于证明的文本蕴涵树，消除对脆弱形式逻辑的依赖，提出了一种一致且理论基础的方法来注释解构蕴涵的数据集，我们发现生成的 RDTE 数据集在内部一致性上比以前的数据集高出 9％，并且通过在现代神经符号推理引擎中使用 RDTE 导向的蕴涵分类器进行训练，显著提高了文本推理的结果（准确性和证明质量），说明了这一进展在实践中的益处。

Feb, 2024

如何解决 RTE5 文本蕴涵挑战所需知识？

本文针对 20 个有趣的文本蕴涵识别 (RTE) 例子，从基于知识的视角进行分析，试图回答推断 T 是否蕴涵 H 所需的世界知识是什么。分析的重点放在 BLUE 系统未能正确回答并需要世界知识的例子上，这些例子通常在 T 和 H 之间有很高的语义和词汇重合度，并且大多数当前的 RTE 系统很难正确回答。

Jun, 2018

探究对常见比喻语言结构的对话模型的鲁棒性

研究发现现有的对话模型在处理比喻和比拟等修辞语言时存在很大的不足，提出利用外部资源将比喻语言转化为字面意思以提高模型鲁棒性的解决方案。

Oct, 2021