用于端到端视频对话系统的多模态Transformer网络
通过 AVSD 挑战,本文提出了一种层次化编码-解码模型来回答有关视频的问题,采用预训练的 I3D 和 VGGish 模型计算视频及音频帧的语义特征,并使用 FiLM 块进行条件编码以降低维数,最终使用 LSTM 解码器通过计划采样进行训练和束搜索进行评估,相比于 AVSD 挑战组织者发布的模态融合基准模型,我们的模型实现了超过16%的相对改善,得分为0.36 BLEU -4,超过33%的得分为0.997 CIDEr。
Dec, 2018
本文提出了一种基于循环神经网络的多步关注机制的多模态联合注意网络(JMAN),用于对视频进行推理,该模型在每个推理过程中联合考虑了视觉和文本表示,以更好地集成两种不同模态的信息。与AVSD组织发布的基线相比,我们的模型在ROUGE-L得分和CIDEr得分上相对提高了12.1%和22.4%。
Jan, 2020
该研究提出了一种通用的多模态转换器,并引入了多任务学习的方法,以解决视频聊天中的音视频场景感知对话生成任务,并将自然语言生成预训练模型扩展到多模态对话生成任务。我们的系统在该挑战中取得了最佳表现。
Feb, 2020
使用点积注意力结合文本和非文本特征的输入视频信息以及采用多源序列的指针网络来增强生成对话代理能力,从而在自动度量中取得高性能,在人类评估中获得第五和第六名。
Feb, 2020
本文提出了一种基于 GPT-2 模型的框架,将视频与文本表示结合成连续、有结构的序列,并利用其 fine-tuning 能力来解决视频对话中的挑战,从而在 Audio-Visual Scene-Aware Dialogues 基准测试中取得了显著的改进。
Jun, 2020
该研究提出了一种多模态增量变形器(MITVG)的视觉指向方法,该方法可以显式地定位与文本实体相关的图像对象,从而帮助模型排除不需要关注的视觉内容,进而在多轮对话历史记录和视觉场景的基础上生成一致且连贯的响应。该模型在 VisDial v0.9 和 v1.0 数据集上实验结果证明了其优越性能。
Sep, 2021
本文提出了一项新的多模式对话状态跟踪任务,用于跟踪视频对话中提到的视觉对象的信息;并介绍了 Video-Dialogue Transformer Network (VDTN) 作为实现该任务的基准模型。
Jun, 2022
本文介绍了一种新的 Hierarchical Local-Global Transformer 模型来解决视频和文本之间的 fine-grained 语义对齐问题,并将其应用于 temporal sentence grounding 任务,通过跨模态平行变压器解码器将其编码为最终的基础。
Aug, 2022
介绍了基于视觉编码器与大型语言模型相结合的 Video-ChatGPT 模型,用于理解和生成关于视频的人类对话,并介绍了使用手动和半自动管道获得的新数据集,可用于训练和评估基于视频的对话模型,并在定量评估框架下分析了该模型的优劣。
Jun, 2023
提出了一种名为MSG-BART的新方法,通过将多粒度时空场景图集成到编码器-解码器预训练语言模型中,增强了视频信息的整合,改进了整体感知和目标推理能力,进一步提高了信息选择能力。在三个视频对话基准测试上进行了广泛的实验,表明MSG-BART相比一系列最先进的方法具有显著的优势。
Sep, 2023