构建多模态人工智能聊天机器人
本论文提出了一种多模态对话生成模型,通过一种新颖的会话代理 Divter,该模型在低资源情况下学习多模态对话,利用文本和图像对对话历史进行响应,并取得了最先进的结果。
Oct, 2021
本文旨在研究结合先进的开放域对话代理和视觉模型,以实现多模态对话的目标,研究不同的图像融合方案和域自适应预训练和微调策略,并展示了我们最好的模型不仅在多模态对话方面优于现有的强模型,而且在纯文本对话方面表现也和其前身 BlenderBot 一样好,同时我们还研究并整合了安全组件,展示这种努力不会削弱模型性能方面的吸引力度量。
Oct, 2020
本文提出创建一种包含图像的 45k 多模态对话数据集的方法,该方法通过准备、预处理文本对话数据集、使用文本转图像技术创建混合图像对话,以及利用基于上下文相似性的过滤步骤确保数据集的上下文一致性。自动度量和人类评估结果表明,我们的数据集可以有效地用于多模态对话系统的训练,需要以上下文感知的方式理解图像和文本。
Jul, 2021
本文介绍了一种基于 CLIP 相似度的多模态对话数据集创建管道,使用这个管道,我们提出了一个大规模的多模态对话数据集 DialogCC,并且通过广泛的实验结果表明,使用我们的数据集训练多模态对话模型可以改善泛化性能,与此同时,使用我们的数据集训练的现有模型在图像和文本检索任务上取得了最先进的表现。
Dec, 2022
通过将多模态大型语言模型与文本到图像生成模型相结合,提出了一种用于多轮文本到图像生成的多模态交互对话系统,同时引入了一种全面的多模态对话评估基准,以评估模型在生成准确且连贯的多模态内容上的能力,包括模态切换和输出图像的连贯性。
Mar, 2024
本文介绍了我们在 Dialog State Tracking Challenge 10 上进行的 Situated Interactive MultiModal Conversations 2.0 挑战中的工作和方法,提出了一种结合图像和文本的多模态模型,并对 SIMMC 2.0 数据集进行了挑战。通过预先训练模型,我们在 subtask#1,#2 中取得了第三佳表现,并在生成 subtask#4 中获得亚军。
Dec, 2021
本文介绍了一种基于聊天式对话系统的图像检索方法,使用大型语言模型生成对用户问题的跟进问题,在对用户的意图进行澄清后,从一个较大的图像库中检索目标图像,并在多次对话中显著提高了图像检索成功率。
May, 2023
本文提出了一种名为 VU-BERT 图文联合嵌入的框架,通过用 patch projection 获取视觉嵌入来简化模型,从而解决了现有研究中用于建模交互的具有特定模态的模块难以使用的问题,并在可视对话任务上取得了较高的竞争性表现。
Feb, 2022
本研究旨在通过引入图像模态转化多维人物角色的性格特点和经验,探究多模态人物角色在对话中的应用和作用,并通过多个任务的实验证明,多模态人物角色的引入可以显著提升多模态对话的性能表现。
May, 2023