Nov, 2023

探究大型语言模型的对话理解能力

TL;DR最近大型语言模型(LLMs)的出现吸引了相当多的注意力。本研究提出利用对话摘要任务评估对话理解性能,并从生成的摘要中推导出事实性问题作为对话理解的更灵活的测量方式。评估结果表明,大多数LLMs生成的摘要中有27%的事实不一致,即使最强模型ChatGPT也有16%的错误摘要,而对于更具挑战性的事实问题回答,所有评估的LLMs的平均准确率仅为62.8%。详细分析表明,LLMs对话理解能力中最令人挑战的问题仍然是对话的主题/客体的理解,为了刺激和提高LLMs对话理解能力,我们提出了一种通过自动构建多任务数据进行微调的范式,实验结果显示我们的方法在DIAC-FactQA上获得了8.9%的准确率提升。