本文提出了一种称为多模态注意力的方法,可以针对图像特征、运动特征和音频特征进行选择性关注,以促进视频描述的多模态信息融合,并在 Youtube2Text 数据集上取得了竞争状态 - of-the-art 的结果。
Jan, 2017
本文提出了一种多模态记忆模型 (M3),利用视觉和文本共享的记忆来建模长期的视觉 - 文本依赖关系并进一步引导全局的视觉注意力,该方法在公开基准数据集上的实验证明,相比于最先进的方法,本文提出的方法在 BLEU 和 METEOR 方面表现较好。
Nov, 2016
提出了一个基于多阶段架构的模型 (Stack-VS),与底层 (top-down) 和高层 (bottom-up) 注意力模型结合来生成优质图片标题。使用 LSTM 解码器单元在可视层级和语义层级信息上重定义关注权重,并在 MSCOCO 基准测试中取得了显著的提高。
Sep, 2019
通过引入 hierarchical LSTM 和 adjusted temporal attention 的方式,利用 temporal attention 来选择特定的帧来预测相关的单词,并决定是否及如何利用视觉和语言上下文信息,以支持视频字幕生成的多层次模型设计,最终在 MSVD 和 MSR-VTT 数据集上优于现有方法。
Jun, 2017
本文提出了一个通用的多模态模型融合框架,以及将预训练的辅助语言模型 (AuxLM) 和掩码语言模型 (MLM) 进行多模态融合,以改进生成的图像描述的质量和纠正其语法和语义错误。在三个基准数据集上的实验结果显示出了明显的改进。
Oct, 2020
本研究提出了一种新的方法,使用自适应的注意力机制和多层卷积神经网络特征(即特征抽象)来生成视频的时空表示,通过实验验证了该方法的有效性。
本研究提出了一种视频片段分割、多帧生成多个盛传、并采用自然语言技术将其连接成故事式视频字幕的方法,实现丰富内容的视频字幕生成,结果表明该方法不需要显式输入视频级别特征即可提供丰富内容,与最新技术方法相同。
May, 2016
本文提出了一种基于多模态 transformer 架构的视频检索方法,该方法能够充分利用视频中的跨模态线索,并融合先前的时间信息。我们还研究了联合优化语言嵌入和多模态 transformer 的最佳实践。该方法在三个数据集上取得了最新的视频检索结果。
Jul, 2020
本文提出了一种分层的模块化网络来连接视频表示和语言语义,从实体级别、谓词级别和句子级别三个层次生成视频字幕,并在 MSVD 和 MSR-VTT 基准测试中表现优异。
Nov, 2021
通过引入自适应注意力机制以及分层 LSTM(Hierarchical LSTM),提出了一种基于注意力的编码器 - 解码器框架,并在图像和视频描述生成领域通过应用空间或时间注意力机制进行预测。实验表明所提出的框架在图像和视频描述生成任务中均取得了最先进的性能,同时还充分探讨了其各个组成部分的重要贡献。
Dec, 2018