LLM 大模型隐喻理解挑战数据集

Mar, 2024

Metaphor Understanding Challenge Dataset for LLMs

Xiaoyu Tong, Rochelle Choenni, Martha Lewis, Ekaterina Shutova

TL;DR为了评估大型语言模型（LLMs）对隐喻理解的能力，我们发布了隐喻理解挑战数据集（MUNCH），该数据集提供了超过 10k 个含隐喻用法的句子的释义和 1.5k 个含不恰当释义的实例，以确定模型是否真正进行了完整的隐喻解释或者仅依赖词汇相似性。实验表明，MUNCH 对 LLMs 来说是一个具有挑战性的任务。

Abstract

Metaphors in natural language are a reflection of fundamental cognitive processes such as analogical reasoning and categorisation, and are deeply rooted in everyday communication. metaphor understanding is therefore an essential task for large language models (→

metaphor understanding metaphor interpretation cognitive processes llms munch

发现论文，激发创造

发现困扰预训练语言模型的具有挑战性的隐喻

对 VUA 隐喻数据集进行分析发现，很多隐喻对下游任务的性能产生很小的影响，因此需要将研究者的注意力转移到那些具有挑战性的隐喻上。为了识别出难度较大的隐喻，本文提出了一个自动化流程，并对各种热门 NLP 系统的机器翻译准确率降低了 16％、问答性能降低了 4％、自然语言推理降低了 7％、隐喻识别回忆率降低了超过 14％。

Jan, 2024

基于心理学的思路链引导大型语言模型理解隐喻

本文使用思维导向提示将概率模型结构引入了大型语言模型的上下文学习中，以推断潜在变量并选择合适的隐喻释义，从而改进了模型的模仿能力。

Sep, 2022

预训练语言模型中的隐喻：跨数据集和语言的探测和普适性研究

该研究使用多语言数据集探索预训练语言模型中所编码的隐喻性信息，结果显示这些模型的中间层主要包含了隐喻性知识，并且该知识在多语言和多数据集中具有泛化性。

Mar, 2022

多任务学习的名词隐喻生成

本文介绍了一个多任务隐喻生成框架，包括自我训练和隐喻鉴别机制，用于解决中文命名隐喻生成的数据稀缺性问题。实验结果表明，与基准模型相比，我们的模型可以生成具有更好可读性和创造性的隐喻，即使训练数据不充足。

Jun, 2022

隐喻释义生成：用字面文本来训练隐喻语言模型

通过使用隐喻语言模型掩盖字面意思从而生成比喻性的解释，且该方法不仅关注动词，还包括名词和形容词。这种方法在元数据的分类中实现了比人工方法更高的水平。

Oct, 2022

Meta4XNLI: 一个用于隐喻检测和解释的跨语言平行语料库

我们提出了 Meta4XNLI，这是一个包含西班牙语和英语隐喻注释的新型并行数据集，用于隐喻检测和解释的任务。通过利用我们提出的语料库，我们通过一系列的单语和跨语言实验来研究语言模型对隐喻的识别和理解能力。我们审查了结果并进行了错误分析，以便理解这些非字面表达如何影响模型的性能。此外，平行数据为研究这些语言之间的隐喻可转移性和翻译对多语言注释资源发展的影响提供了许多潜在机会。

Apr, 2024

我发现一个隐喻：大型语言模型和扩散模型共同创造视觉隐喻

本研究提出一种使用大型语言模型（LLM）与扩散模型的人工智能协作框架，旨在从语言隐喻中生成视觉隐喻，以便于传达含蓄含义并进行陈述。经过插图师的评估证明，这种协作模型的前景看好。

May, 2023

大型语言模型展示对新颖文学隐喻的演绎能力

通过评估 GPT-4，一个尖端的大型语言模型，在解释塞尔维亚诗歌中提取的新颖文学隐喻时所提供的自然语言解释能力，它未展现出之前接触过这些隐喻的迹象，但提供了详细而深刻的解释，被盲审的人员（不知道涉及 AI 模型的事实）将 GPT-4 生成的隐喻解释评为优于来自一组大学生的解释，这些结果表明 GPT-4 等大语言模型已经获得了解释复杂新颖隐喻的新兴能力。

Aug, 2023

MARS：用多任务评估数据集评估语言模型的形而上学推理能力

为了使大型语言模型（LLMs）能够成为具有可推广的推理能力的有意识的代理人，关键是它们具备理解由环境因素或其他代理人的行动触发的分布情况变化（转换）的推理能力。我们提出了一种新颖的推理形式，称为 MetAphysical ReaSoning，它将分布变化的推理视为一个三步骤的判别过程，并引入了首个基准测试 MARS 来评估 LLMs 在推理行动变化引起的可能性、由变化行动引起的状态以及由行动变化驱动的情境转换方面的能力。深入评估显示，即使对于最先进的 LLMs 和经过微调的 LMs 而言，该过程中的所有三个任务都带来了重大挑战。进一步的分析揭示了 LLMs 表现不佳的潜在原因，并证明了在大规模概念分类法中预训练 LLMs 可以潜在地增强其形而上学推理能力。我们的数据和模型可以在此 https URL 上公开访问。

Jun, 2024

使用象征主义和区分式解码生成隐喻的 MERMAID

通过使用并行语料库以及基于序列到序列模型和隐马尔可夫模型的方法，本文构建了一个自动跨领域语义映射的框架，通过生成一些具有语义相似性的例子，实现了提取图形用户界面元素的语义。

Mar, 2021