Mar, 2024

LLM 大模型隐喻理解挑战数据集

TL;DR为了评估大型语言模型(LLMs)对隐喻理解的能力,我们发布了隐喻理解挑战数据集(MUNCH),该数据集提供了超过 10k 个含隐喻用法的句子的释义和 1.5k 个含不恰当释义的实例,以确定模型是否真正进行了完整的隐喻解释或者仅依赖词汇相似性。实验表明,MUNCH 对 LLMs 来说是一个具有挑战性的任务。