多模态增量变压器结合视觉定位生成视觉对话

Sep, 2021

多模态增量变压器结合视觉定位生成视觉对话

Multimodal Incremental Transformer with Visual Grounding for Visual Dialogue Generation

Feilong Chen, Fandong Meng, Xiuyi Chen, Peng Li, Jie Zhou

TL;DR该研究提出了一种多模态增量变形器（MITVG）的视觉指向方法，该方法可以显式地定位与文本实体相关的图像对象，从而帮助模型排除不需要关注的视觉内容，进而在多轮对话历史记录和视觉场景的基础上生成一致且连贯的响应。该模型在 VisDial v0.9 和 v1.0 数据集上实验结果证明了其优越性能。

Abstract

visual dialogue is a challenging task since it needs to answer a series of coherent questions on the basis of understanding the visual environment. Previous studies focus on the implicit exploration of multimodal co-reference by implicitly attending to spatial image features or object-

发现论文，激发创造

用于端到端视频对话系统的多模态Transformer网络

本研究提出了一种使用多模态转换网络（MTN）来编码和整合不同模态信息的视频对话系统。在对话生成过程中，我们提出了一个训练程序来模拟标记级解码，从而提高了生成响应的质量。我们在DSTC7上获得了最优秀的表现，并且我们的模型具有很好的泛化性能。

Jul, 2019

文本和视频的桥梁: 用于视频音频场景感知对话的通用多模态Transformer

该研究提出了一种通用的多模态转换器，并引入了多任务学习的方法，以解决视频聊天中的音视频场景感知对话生成任务，并将自然语言生成预训练模型扩展到多模态对话生成任务。我们的系统在该挑战中取得了最佳表现。

Feb, 2020

TransVG：基于Transformer的端到端视觉定位

本文提出了一种基于Transformer的视觉定位框架TransVG，通过建立多模态对应关系，实现使用简单Transformer编码器层替代复杂的融合模块，在五个广泛使用的数据集上取得了一系列最先进的记录并构建了基于Transformer的视觉定位框架基准。

Apr, 2021

引用变压器：一种多任务视觉基础的一步方法

本次研究提出了一个基于transformer架构的单阶段多任务模型，通过融合视觉和语言输入，实现了高度语义转换的视觉语言解析，通过上下文信息和多任务学习，该模型在包括命名实体识别等任务上，取得了比现有方法更加突出的性能优势。

Jun, 2021

学习为视觉对话建立视觉对象的联系

提出一种新方法，通过先验分布和后验分布基于上下文理解来实现视觉对象的定位，从而提高视觉对话模型在生成和区分性任务中的表现，并在VisDial v0.9和v1.0数据集上进行了实验验证。

Sep, 2021

三维视觉对接的多视图Transformer

这篇论文提出了一种基于多视角变换器（MVT）的方法，将3D场景投影到多视角空间中，学习一种更为稳健的多模态表示形式，从而消除特定视角的依赖，并在实验中表现出比现有方法更好的性能。

Apr, 2022

多轮多模态指称及锚定

我们建立了一个名为多模态多轮指称及定位的新任务的基准，并提出了一个名为ChatterBox的视觉语言模型，通过协同处理视觉和语言任务，ChatterBox在多模态对话场景中具有复杂而精确的交互中相较于现有模型在实例级别的理解上表现出更好的性能。

Jan, 2024

SimVG：一种简单的多模态解耦融合视觉定位框架

本研究针对现有视觉定位方法在复杂文本表达下性能显著下降的问题，提出了一种新的变换器基础框架SimVG。通过解耦视觉-语言特征融合并引入额外的对象标记，该方法显著提高了视觉定位的效率和收敛速度，同时在多个基准测试上达成了新的最先进性能。

Sep, 2024

无监督基础下的大型多模态模型中的新兴像素定位

当前大型多模态模型面临着定位语言组件与视觉实体之间关系的挑战。本文提出了一种“关注与分割”的方法，展示了在无明确定位监督的情况下，模型可以自发地培养出基础能力，并通过引入基于扩散的视觉编码器，提升了模型的定位能力。研究结果表明，我们的方法在定位会话生成任务中未使用任何定位监督，仍表现出竞争力，在基础面具召回率上超过了大量监督模型。

Oct, 2024

VideoGLaMM：一种用于视频中像素级视觉定位的大型多模态模型

本研究解决了视频与文本之间的细粒度对齐问题，现有的视频多模态模型在像素级定位方面存在不足。我们提出的VideoGLaMM模型通过结合大型语言模型、双重视觉编码器和时空解码器，实现了有效的视觉-语言对齐及准确的掩码生成。实验结果表明，VideoGLaMM在基础对话生成、视觉定位和视频分割等三个具有挑战性的任务中均优于现有方法。

Nov, 2024