May, 2024

对话大型语言模型中的成语检测:一道难题

TL;DR本研究探讨了大型语言模型 (LLMs) 在习语语言处理方面的应用。我们介绍了由语言专家设计的新的难题数据集 “IdioTS”,用于评估 LLMs 在句子级别处理比喻语言的能力。我们提出了一种基于习语检测任务的综合评估方法,其中 LLMs 被提示在给定的英文句子中检测习语表达。我们对结果进行了全面的自动和手动评估,并进行了广泛的错误分析。