Nov, 2023

探究大型语言模型的对话理解能力

TL;DR最近大型语言模型(LLMs)的出现吸引了相当多的注意力。本研究提出利用对话摘要任务评估对话理解性能,并从生成的摘要中推导出事实性问题作为对话理解的更灵活的测量方式。评估结果表明,大多数 LLMs 生成的摘要中有 27% 的事实不一致,即使最强模型 ChatGPT 也有 16% 的错误摘要,而对于更具挑战性的事实问题回答,所有评估的 LLMs 的平均准确率仅为 62.8%。详细分析表明,LLMs 对话理解能力中最令人挑战的问题仍然是对话的主题 / 客体的理解,为了刺激和提高 LLMs 对话理解能力,我们提出了一种通过自动构建多任务数据进行微调的范式,实验结果显示我们的方法在 DIAC-FactQA 上获得了 8.9% 的准确率提升。