Jul, 2023

多模对话模型处理澄清对话的能力评估

TL;DR在对话中,当引用表达不能唯一地识别出意图的指示对象时,产生了指向性模糊。此研究表明生成和回应澄清请求对于多模式、以视觉为基础的对话模型的架构和目标函数有特定的限制。通过使用 SIMMC 2.0 数据集评估不同最先进模型体系结构处理澄清交流的能力,该模型可探测它们在模型中引起的上下文更新的度量。结果发现,基于语言的模型能够编码简单的多模式语义信息和处理一些澄清交流,而多模式模型可以使用其他学习目标来获取解耦的物体表示,这对处理跨模态的复杂指向性模糊至关重要。