视频排序的深度多模态特征编码

ICCVApr, 2020

Deep Multimodal Feature Encoding for Video Ordering

Vivek Sharma, Makarand Tapaswi, Rainer Stiefelhagen

TL;DR通过对视频的各种形式进行联合分析（包括视频帧、音频和任何附带文本），我们提出了一种学习紧凑的多模态特征表示形式的方法，证明了多模态表示是互补的，可以在提高许多应用性能中发挥关键作用。

Abstract

True understanding of videos comes from a joint analysis of all its modalities: the video frames, the audio track, and any accompanying text such as closed captions. We present a way to learn a compact multimodal feature representation that encodes all these modalities. Our model parameters are learned through a proxy task of inferring the →

multimodal feature representation temporal ordering action recognition complementary performance

发现论文，激发创造

视频检索的多模态 Transformer

本文提出了一种基于多模态 transformer 架构的视频检索方法，该方法能够充分利用视频中的跨模态线索，并融合先前的时间信息。我们还研究了联合优化语言嵌入和多模态 transformer 的最佳实践。该方法在三个数据集上取得了最新的视频检索结果。

Jul, 2020

一个基于混合深度学习框架的视频分类多模态信息建模模型

本文研究如何利用多模态线索来改进视频分类。我们提出了一个混合的深度学习框架，它将静态空间外观信息、短时间内的运动模式、音频信息以及长时序动态性等多个模态的线索集成起来，以捕捉它们之间的关系，并通过多次实验表明，该框架可以提高视频分类的准确度。

Jun, 2017

端到端多模式视频时间定位

本文提出了一种基于多模态框架的文本指导视频时间地基方法，采用 RGB 图像、光流和深度图来提取视频的补充信息并通过 transformers 设计动态融合方案进行交互学习，在 Charades-STA 和 ActivityNet Captions 数据集上实验表明，该方法表现优越。

Jul, 2021

视频和音频检索的跨模态嵌入

本文介绍了一种利用 YouTube-8M 数据库中视听文件间共同区域来建立联系以自主训练深度神经网络的方法，实现了跨模态特征学习的无监督方法，并得出了良好的检索结果。

Jan, 2018

视频广告理解的多模态框架

该论文介绍了一种利用多模态技术实现广告视频内容结构化分析的系统，包括场景分割和多模态标记两个任务，通过视觉和文本特征相结合的方法，在 2021 年 TAAC 竞赛中获得了 0.2470 的高得分。

Aug, 2021

基于多模态特征的文本视频分割运动建模

本文提出了一种多模态视频分割方法，通过语言引导的特征融合模块和多模态对齐损失函数，将视觉外观、运动信息和语言特征融合，实现了精准的文本视频分割。在 A2D Sentences 和 J-HMDB Sentences 数据集上的实验表明，该方法与现有方法相比具有更好的性能和泛化能力。

Apr, 2022

文本视频双编码检索

本文提出了一种新的视频检索方法，采用双重深度编码网络进行多级编码，将视频和查询作为两种模态编码为向量，同时结合好的可解释性和性能的高性能的概念空间和潜在空间来进行深空间学习，经实验证明了方法的可行性。

Sep, 2020

一次搞定 —— 用于视频检索的多模态融合 Transformer

本文提出一种基于多模态、模态无关的融合变压器方法，通过交换多个模态之间的信息并将其整合成一个联合的多模态表示，从而获得聚合多模态时态信息的嵌入，可用于零 - shot 检索和分类。我们在 HowTo100M 数据集上训练模型，并在四个具有挑战性的基准数据集上评估结果，取得了零 - shot 视频检索和零 - shot 视频行动定位的最新成果。

Dec, 2021

视频和文本的跨模态和分层建模

本文探讨了多模态序列数据的建模技术，提出了一种通用模型，即基于层次结构的序列嵌入模型 (HSE)，该模型将不同模态的序列数据嵌入层次语义空间中，取得了超越现有方法的结果，并在零样本动作识别和视频字幕自动生成等下游任务中取得了更好的效果。

Oct, 2018

野外视频情感分类的时间多模态融合

本文通过使用卷积神经网络改进面部描述符，并探索多种融合方法，建立并优化 CNN 架构，解决情感分类问题，获得了 2017 年 “Emotion in the Wild” 挑战赛第四名的准确性，达到了 58.8％。

Sep, 2017