MADNet:基于最大化受话方推断期望的多方会话生成
提出了一种基于异构图神经网络的多方会话响应生成模型,通过建模话语和交互者的语义信息及设计不同类型的元关系来处理多方对话中的结构信息,实验证明其在 Ubuntu Internet Relay Chat(IRC)通道基准测试上优于其他基线模型。
Mar, 2022
通过设计四种边将图诱导信号引入注意力机制,我们提出了一种名为图诱导微调 (GIFT) 的轻量级方法,可用于多方对话的普适性理解。通过将其应用到三个预训练的语言模型中,我们发现 GIFT 可以在三项下游任务中显着提高模型性能,仅每层编码增加 4 个参数,在多方对话理解领域实现了最新的最佳性能。
May, 2023
提出一种考虑复杂的多方对话话语结构的对话图神经网络模型 DADgraph,并在包含话语结构注释的大规模 MRC 数据集 Molweni 上进行实验验证,实验表明该模型相较于强基线模型在 Molweni 数据集上具有统计学显著的改进。
Apr, 2021
利用 ChatGPT 和 GPT-4 等生成型大型语言模型对多方对话进行评估与分析,揭示了利用生成型大型语言模型处理多方对话所面临的挑战以及可行的解决方案。
Oct, 2023
该文介绍了一种基于消息传递框架的应用,即面向自然语言处理的消息传递注意力网络(MPAD),并在 10 个标准文本分类数据集上进行了实验,结果表明其性能与现有最先进模型相当,代码公开可用。
Aug, 2019
MPC-BERT 是一种预训练的神经模型,通过学习谁对谁说什么,结合几个自监督任务,在多方对话任务中表现出比以前的方法更好的性能。
Jun, 2021
通过对大规模语言模型在任务导向的多方对话中捕捉能力的评估,本研究记录并转录了医院中患者、他们的陪伴者和社交机器人之间的 29 个多方对话,并对此语料库进行了多方目标跟踪和意图 - 插槽识别的注释。我们在零样本和少样本设置中比较了三种方法,即微调 T5,使用 LED 创建预训练任务以训练 DialogLM,并采用 GPT-3.5-turbo 的提示工程技术,以确定哪种方法可以用有限数据完成这一新任务。在少样本设置中,GPT-3.5-turbo 显著优于其他方法。当给出例子注释对话中 7% 的语料库时,“推理” 风格的提示是效果最好的方法。它正确注释了 62.32% 的目标跟踪多方对话和 69.57% 的意图 - 插槽识别多方对话。而 “故事” 风格的提示会增加模型的虚构成分,在安全关键环境中可能会有不利影响。我们得出结论,多方对话仍然对最先进的大规模语言模型构成挑战。
Aug, 2023
通过引入自适应消息传递的置信度感知双分图神经网络和高效的双层数据重新采样策略,可以有效地消除偏差,进而实现对场景图生成的均衡处理。该方法在多个具有挑战性的数据集上实现了卓越或具有竞争力的性能,包括 Visual Genome,Open Images V4/V6。
Apr, 2021