Aug, 2023

多方目标跟踪与 LLMs:预训练、微调和提示工程比较

TL;DR通过对大规模语言模型在任务导向的多方对话中捕捉能力的评估,本研究记录并转录了医院中患者、他们的陪伴者和社交机器人之间的 29 个多方对话,并对此语料库进行了多方目标跟踪和意图 - 插槽识别的注释。我们在零样本和少样本设置中比较了三种方法,即微调 T5,使用 LED 创建预训练任务以训练 DialogLM,并采用 GPT-3.5-turbo 的提示工程技术,以确定哪种方法可以用有限数据完成这一新任务。在少样本设置中,GPT-3.5-turbo 显著优于其他方法。当给出例子注释对话中 7% 的语料库时,“推理” 风格的提示是效果最好的方法。它正确注释了 62.32% 的目标跟踪多方对话和 69.57% 的意图 - 插槽识别多方对话。而 “故事” 风格的提示会增加模型的虚构成分,在安全关键环境中可能会有不利影响。我们得出结论,多方对话仍然对最先进的大规模语言模型构成挑战。