对话可视化:通过大型语言模型实现通过对话理解提升图像选择
该论文介绍了一种新的视频场景感知对话系统,该系统将多个研究领域的最新技术整合应用 ,包括端到端的对话技术、视觉问答技术,以及视频描述技术。通过收集一个有关人类行为视频的对话数据集,作者们使用该数据集训练出一种多模态对话模型,它可以在对视频进行讨论时生成响应。最终实验结果表明,使用为多模态注意力视频描述开发的多模态特征可以提高对于动态场景(视频)生成对话的质量。
Jun, 2018
开发了一个名为CLEVR-Dialog的大型诊断数据集,以研究视觉对话中的多轮推理(multiround reasoning),在其中所有视觉对话的所有方面都得到了完全注释。使用CLEVR-Dialog测量了标准视觉对话模型的性能,特别是针对视觉指代消解(coreference resolution)的表现,并于之前数据集中的模型进行了比较,发现了其中的差异。
Mar, 2019
该研究提出了一种新的模型来从视觉和语义两个角度描述图像,在多角度图像特征的基础上提出了特征选择框架,逐层适应性地捕捉问题相关信息,并在基准视觉对话数据集上取得了最先进的结果。更重要的是,通过可视化门控值,我们能够确定视觉和语义哪个模式在回答当前问题中发挥更重要的作用,为我们理解人类认知在视觉对话中的作用提供了见解。
Nov, 2019
该论文探讨了通过使用图像和对话背景信息生成下一步回答的视觉对话任务。因为一些对话问题只需要看图像,没有历史对话背景的信息,因此先前的联合模式变得依赖和容易陷入对话历史的记忆中,相比之下,仅使用图像的模型更具有普适性,并且在 NDCG 指标上表现更好。因此,作者提出了一种结合两种模型的方法,并在视觉对话挑战赛中取得优异的成绩。
Jan, 2020
本文提出了一种将视觉知识集成入基于文本的对话系统的方法,通过对视觉知识进行细分并从互联网或大型图像数据集中检索增强的视觉信息,实现了两个数据集(ReSee-WoW、ReSee-DD)的构建,并在所构建的对话模型(ReSee)上进行了大量的实验和消融,结果表明该模型在自动和人工评估上均优于现有的几种最先进的方法。
May, 2023
该论文提出了一种方法,通过将文本形式的大型语言模型嵌入图像编码器和解码器模型中,利用它们的嵌入空间之间的映射来融合两者,从而实现多模态的图像检索、新颖图像生成和多模态对话,同时还能生成并处理图像和文本输入,比非基于 LLM 的模型在一些基于文本生成图像任务方面表现更好。
May, 2023
我们提出了一种评估方法,使用强大的大视觉语言模型作为评判者来全面评估大视觉语言模型的各种能力,通过构建综合的触石视觉对话数据集和整合详细的图像注释,我们能够在不需要人为干预的情况下,利用先进的大语言模型直接评估多模态对话的质量,从而为大视觉语言模型的评估提供参考,并铺就构建更强大的大视觉语言模型的道路。
Aug, 2023
通过对话互动生成确切描述来增强视觉引导对话中视觉语言模型(VLMs)的话语处理能力,并使用预训练的VLMs在零样本情况下识别参照物,从而提高了参照的准确性和效果。
Sep, 2023
使用现有的LENS Framework来测试对话系统的多模态任务的可行性,与以往的基于Transformer的模型相比,我们的方法在流畅性、有用性以及相关性和连贯性上均有显著提升,同时证明了大规模预训练模型对于多模态任务导向对话系统的有效性。
Oct, 2023
综述了大语言模型与视觉语言模型的最新进展,分析了它们在视觉能力、多模态输入和基准数据集方面的优势和局限性,并提出未来研究的潜在方向。
Feb, 2024