隐喻识别数据集中的建构工件

EMNLPNov, 2023

Construction Artifacts in Metaphor Identification Datasets

Joanne Boisson, Luis Espinosa-Anke, Jose Camacho-Collados

TL;DR通过忽略潜在的比喻表达或其出现的上下文，本文展示了现有的比喻识别数据集如何被篡改。我们在各种数据集和环境中测试了这一假设，并表明基于语言模型的比喻识别系统在没有完整信息的情况下与使用完整上下文信息的系统具有竞争力，这是由于构建此类数据集的过程引入了对正面和负面类别的不希望的偏倚。最后，我们在从自然语料库中精心抽样且没有存在该偏倚的数据集上测试了同样的假设，使得这些数据集更具挑战性和可靠性。

Abstract

metaphor identification aims at understanding whether a given expression is used figuratively in context. However, in this paper we show how existing →

metaphor identification existing datasets context language models construction procedures

发现论文，激发创造

预训练语言模型中的隐喻：跨数据集和语言的探测和普适性研究

该研究使用多语言数据集探索预训练语言模型中所编码的隐喻性信息，结果显示这些模型的中间层主要包含了隐喻性知识，并且该知识在多语言和多数据集中具有泛化性。

Mar, 2022

LLM 大模型隐喻理解挑战数据集

为了评估大型语言模型（LLMs）对隐喻理解的能力，我们发布了隐喻理解挑战数据集（MUNCH），该数据集提供了超过 10k 个含隐喻用法的句子的释义和 1.5k 个含不恰当释义的实例，以确定模型是否真正进行了完整的隐喻解释或者仅依赖词汇相似性。实验表明，MUNCH 对 LLMs 来说是一个具有挑战性的任务。

Mar, 2024

学会跳出框框：语篇级别特征改善隐喻辨别

本文提出，语境特征对于更好的隐喻识别非常重要，我们基于多种文档嵌入方法对话语及其周围环境进行表征，使用简单的梯度增强分类器，在不使用其他系统采用的复杂隐喻特定特征或深度网络体系结构的情况下，达到了几乎最先进的 2018 年 VU 阿姆斯特丹隐喻识别任务数据集的结果，并进一步通过质性分析证实了在隐喻处理中需要更广泛的上下文环境。

Apr, 2019

探究对常见比喻语言结构的对话模型的鲁棒性

研究发现现有的对话模型在处理比喻和比拟等修辞语言时存在很大的不足，提出利用外部资源将比喻语言转化为字面意思以提高模型鲁棒性的解决方案。

Oct, 2021

早期中世纪希伯来诗歌隐喻检测数据集

这篇论文介绍了一个新的、具有专家注释的后古代和中世纪希伯来诗歌数据集，探讨了其中的隐喻现象，并希望能够促进这一领域的进一步研究。

Feb, 2024

通过显式基本含义建模实现隐喻检测

提出了基于模型和训练集的字面注释，比较上下文意义以识别隐喻，并成功实现对基本注释目标的检测的一种新颖的隐喻检测方法，验证了对于隐喻检测建模基本意义的重要性和有效性。

May, 2023

IRFL：修辞语言的图像识别

本研究提出了 “形象化语言图像识别” 数据集，探讨了视觉和语言模型理解多模态形象化语言的难点，并借助基准任务和基线模型初步研究了这一问题。结果表明，所有的模型在多模态形象化语言理解上都不如人类。该数据集和基准任务将促进模型更好地理解形象化语言。

Mar, 2023

多任务学习的名词隐喻生成

本文介绍了一个多任务隐喻生成框架，包括自我训练和隐喻鉴别机制，用于解决中文命名隐喻生成的数据稀缺性问题。实验结果表明，与基准模型相比，我们的模型可以生成具有更好可读性和创造性的隐喻，即使训练数据不充足。

Jun, 2022

使用大规模自动隐喻辨识验证隐喻断言

这项研究是基于大规模语料库的分析，验证了有关动词隐喻的一些存在观点，结果显示，作为隐喻使用的动词的直接宾语往往具有较低的具体性、可形象化和熟悉度，隐喻更容易在情感和主观句子中使用。

Apr, 2024

MelBERT: 使用隐喻识别理论的上下文化后交互进行隐喻检测

使用预训练语境感知模型和语言隐喻鉴别理论，我们提出了一种新型的隐喻检测模型 MelBERT，成功在四个基准数据集中超越了强大的基线模型。

Apr, 2021