Apr, 2024

大型语言模型是否理解对话言外之意 —— 以中国情景喜剧为例研究

TL;DR大规模语言模型的非字面含义对于其成为类似人类的社交交流者至关重要。本文首次介绍了源自中国情景喜剧《武林外传》对话的 Chinese multi-turn-dialogue-based 数据集 SwordsmanImp。我们测试了八种封闭源和开源 LLM 模型在两个任务中的表现:多项选择问题任务和蕴涵说明任务。我们的结果表明 GPT-4 在多项选择问题上达到了人类水平的准确性(94%)。本研究还发现,除了 GPT-4 之外,大多数 LLM 无法对对话中的含义产生令人满意的解释。