基于熵增强的多模态注意力模型用于场景感知对话生成

AAAIAug, 2019

基于熵增强的多模态注意力模型用于场景感知对话生成

Entropy-Enhanced Multimodal Attention Model for Scene-Aware Dialogue Generation

Kuan-Yen Lin, Chao-Chun Hsu, Yun-Nung Chen, Lun-Wei Ku

TL;DR本研究提出了熵增强动态内存网络 (DMN) 以有效地对视频模态建模，并应用基于注意力的 GRU 来提高模型理解和记忆序列信息的能力，从而生成对于视频问答问题精确的回答。在官方评估中，我们的系统在主观和客观评估指标上均能实现比已发布的基准模型更好的性能。

Abstract

With increasing information from social media, there are more and more videos available. Therefore, the ability to reason on a video is important and deserves to be discussed. TheDialog System Technology Challenge (DSTC7) (Yoshino et al. 2018) proposed an Audio Visual Scene-aware Dialog (avsd

avsd dmn video modeling attention-based gru entropy mechanism

发现论文，激发创造

面向场景感知对话系统的多步骤多模态注意力网络

本文提出了一种基于循环神经网络的多步关注机制的多模态联合注意网络（JMAN），用于对视频进行推理，该模型在每个推理过程中联合考虑了视觉和文本表示，以更好地集成两种不同模态的信息。与 AVSD 组织发布的基线相比，我们的模型在 ROUGE-L 得分和 CIDEr 得分上相对提高了 12.1％和 22.4％。

Jan, 2020

多模态基于注意力机制视频特征的端到端视听场景感知对话

该论文介绍了一种新的视频场景感知对话系统，该系统将多个研究领域的最新技术整合应用，包括端到端的对话技术、视觉问答技术，以及视频描述技术。通过收集一个有关人类行为视频的对话数据集，作者们使用该数据集训练出一种多模态对话模型，它可以在对视频进行讨论时生成响应。最终实验结果表明，使用为多模态注意力视频描述开发的多模态特征可以提高对于动态场景（视频）生成对话的质量。

Jun, 2018

从 FiLM 到视频：多模态背景下的多轮问答

通过 AVSD 挑战，本文提出了一种层次化编码 - 解码模型来回答有关视频的问题，采用预训练的 I3D 和 VGGish 模型计算视频及音频帧的语义特征，并使用 FiLM 块进行条件编码以降低维数，最终使用 LSTM 解码器通过计划采样进行训练和束搜索进行评估，相比于 AVSD 挑战组织者发布的模态融合基准模型，我们的模型实现了超过 16％的相对改善，得分为 0.36 BLEU -4，超过 33％的得分为 0.997 CIDEr。

Dec, 2018

DSTC8-AVSD：多模态语义 Transformer 网络及检索式词汇生成器

提出了一种多模态语义变形器网络，基于注意力词嵌入层的变形器架构和查询单词嵌入层生成单词。该模型在 AVSD 任务中取得了优异的表现。

Apr, 2020

通过数据增强的问答方法进行多模态对话状态跟踪

文章提出了一个基于多模态融合和注意力机制的开放域问答系统，用于解决 Audio-Video Scene-Aware Dialogue（AVSD）任务，结果表明基于问答假设的数据增广技术和模型均能在 DSTC7-AVSD 数据集上带来显著的改进。

Jul, 2020

多模态洗牌变换器的视频对话动态图表示学习

本研究介绍了一种语义控制的多模态 Shuffled Transformer 推理框架，它包括一系列 Transformer 模块，用于解决 AVSD 任务中的多模态学习和推理，并提出了一种新型的动态场景图表示学习方法。实验结果表明，该模型在所有度量标准上均取得了最先进的性能。

Jul, 2020

基于 Transformer 的视频表示的视听场景感知对话生成

本研究探讨使用 Transformer-based 视频特征提取器在 Audio Visual Scene-Aware Dialog（AVSD）中解决长期时间视觉依赖和全局视觉信息的问题，并在答案生成方面取得了更高的目标性能评分。

Feb, 2022

用于端到端视频对话系统的多模态 Transformer 网络

本研究提出了一种使用多模态转换网络（MTN）来编码和整合不同模态信息的视频对话系统。在对话生成过程中，我们提出了一个训练程序来模拟标记级解码，从而提高了生成响应的质量。我们在 DSTC7 上获得了最优秀的表现，并且我们的模型具有很好的泛化性能。

Jul, 2019

DSTC8 AVSD 挑战赛的多模态指针网络 Transformer

使用点积注意力结合文本和非文本特征的输入视频信息以及采用多源序列的指针网络来增强生成对话代理能力，从而在自动度量中取得高性能，在人类评估中获得第五和第六名。

Feb, 2020

视频的记忆增强式注意力模型

本文提出了一种通过建模视频帧和描述概念之间的高阶交互来改善视频描述生成的方法。通过存储先前与之关联的视觉注意力，系统能够决定在已经看过和描述过的内容的基础上看什么并进行描述。这不仅可以实现更有效的局部关注，而且在生成每个单词时可以实现可处理的视频序列的考虑。在具有挑战性和广受欢迎的 MSVD 和 Charades 数据集上的评估表明，所提出的体系结构优于以前的视频描述方法，而无需外部时间视频特征。

Nov, 2016