IMAD: 图像增强的多模态对话
本文提出创建一种包含图像的 45k 多模态对话数据集的方法,该方法通过准备、预处理文本对话数据集、使用文本转图像技术创建混合图像对话,以及利用基于上下文相似性的过滤步骤确保数据集的上下文一致性。自动度量和人类评估结果表明,我们的数据集可以有效地用于多模态对话系统的训练,需要以上下文感知的方式理解图像和文本。
Jul, 2021
本文介绍了一种基于 CLIP 相似度的多模态对话数据集创建管道,使用这个管道,我们提出了一个大规模的多模态对话数据集 DialogCC,并且通过广泛的实验结果表明,使用我们的数据集训练多模态对话模型可以改善泛化性能,与此同时,使用我们的数据集训练的现有模型在图像和文本检索任务上取得了最先进的表现。
Dec, 2022
本文旨在研究结合先进的开放域对话代理和视觉模型,以实现多模态对话的目标,研究不同的图像融合方案和域自适应预训练和微调策略,并展示了我们最好的模型不仅在多模态对话方面优于现有的强模型,而且在纯文本对话方面表现也和其前身 BlenderBot 一样好,同时我们还研究并整合了安全组件,展示这种努力不会削弱模型性能方面的吸引力度量。
Oct, 2020
本论文提出了一种多模态对话生成模型,通过一种新颖的会话代理 Divter,该模型在低资源情况下学习多模态对话,利用文本和图像对对话历史进行响应,并取得了最先进的结果。
Oct, 2021
我们引入了 MAGID,一个以多模式互动系统为基础的创新框架,通过高质量且多样化的图像增强了仅有文本的对话,通过扩充图像数据库取得显著的人类评估改进。
Mar, 2024
该研究旨在创建一个多模态人工智能系统,可以与人类交谈并分享相关图片,其中包括了图片检索模块和图片理解生成回复的模块。使用 ViT,BERT,GPT-2/DialoGPT 三个模型,在自动生成的和人工评估中结果显示,在开放式场景的图像识别中表现优异。
Apr, 2023
该论文探讨了通过使用图像和对话背景信息生成下一步回答的视觉对话任务。因为一些对话问题只需要看图像,没有历史对话背景的信息,因此先前的联合模式变得依赖和容易陷入对话历史的记忆中,相比之下,仅使用图像的模型更具有普适性,并且在 NDCG 指标上表现更好。因此,作者提出了一种结合两种模型的方法,并在视觉对话挑战赛中取得优异的成绩。
Jan, 2020
该论文介绍了一种新的视频场景感知对话系统,该系统将多个研究领域的最新技术整合应用 ,包括端到端的对话技术、视觉问答技术,以及视频描述技术。通过收集一个有关人类行为视频的对话数据集,作者们使用该数据集训练出一种多模态对话模型,它可以在对视频进行讨论时生成响应。最终实验结果表明,使用为多模态注意力视频描述开发的多模态特征可以提高对于动态场景(视频)生成对话的质量。
Jun, 2018
通过将多模态大型语言模型与文本到图像生成模型相结合,提出了一种用于多轮文本到图像生成的多模态交互对话系统,同时引入了一种全面的多模态对话评估基准,以评估模型在生成准确且连贯的多模态内容上的能力,包括模态切换和输出图像的连贯性。
Mar, 2024