视频排序的深度多模态特征编码
本文提出了一种基于多模态 transformer 架构的视频检索方法,该方法能够充分利用视频中的跨模态线索,并融合先前的时间信息。我们还研究了联合优化语言嵌入和多模态 transformer 的最佳实践。该方法在三个数据集上取得了最新的视频检索结果。
Jul, 2020
本文研究如何利用多模态线索来改进视频分类。我们提出了一个混合的深度学习框架,它将静态空间外观信息、短时间内的运动模式、音频信息以及长时序动态性等多个模态的线索集成起来,以捕捉它们之间的关系,并通过多次实验表明,该框架可以提高视频分类的准确度。
Jun, 2017
本文提出了一种基于多模态框架的文本指导视频时间地基方法,采用 RGB 图像、光流和深度图来提取视频的补充信息并通过 transformers 设计动态融合方案进行交互学习,在 Charades-STA 和 ActivityNet Captions 数据集上实验表明,该方法表现优越。
Jul, 2021
本文介绍了一种利用 YouTube-8M 数据库中视听文件间共同区域来建立联系以自主训练深度神经网络的方法,实现了跨模态特征学习的无监督方法,并得出了良好的检索结果。
Jan, 2018
该论文介绍了一种利用多模态技术实现广告视频内容结构化分析的系统,包括场景分割和多模态标记两个任务,通过视觉和文本特征相结合的方法,在 2021 年 TAAC 竞赛中获得了 0.2470 的高得分。
Aug, 2021
本文提出了一种多模态视频分割方法,通过语言引导的特征融合模块和多模态对齐损失函数,将视觉外观、运动信息和语言特征融合,实现了精准的文本视频分割。在 A2D Sentences 和 J-HMDB Sentences 数据集上的实验表明,该方法与现有方法相比具有更好的性能和泛化能力。
Apr, 2022
本文提出了一种新的视频检索方法,采用双重深度编码网络进行多级编码,将视频和查询作为两种模态编码为向量,同时结合好的可解释性和性能的高性能的概念空间和潜在空间来进行深空间学习,经实验证明了方法的可行性。
Sep, 2020
本文提出一种基于多模态、模态无关的融合变压器方法,通过交换多个模态之间的信息并将其整合成一个联合的多模态表示,从而获得聚合多模态时态信息的嵌入,可用于零 - shot 检索和分类。我们在 HowTo100M 数据集上训练模型,并在四个具有挑战性的基准数据集上评估结果,取得了零 - shot 视频检索和零 - shot 视频行动定位的最新成果。
Dec, 2021
本文探讨了多模态序列数据的建模技术,提出了一种通用模型,即基于层次结构的序列嵌入模型 (HSE),该模型将不同模态的序列数据嵌入层次语义空间中,取得了超越现有方法的结果,并在零样本动作识别和视频字幕自动生成等下游任务中取得了更好的效果。
Oct, 2018
本文通过使用卷积神经网络改进面部描述符,并探索多种融合方法,建立并优化 CNN 架构,解决情感分类问题,获得了 2017 年 “Emotion in the Wild” 挑战赛第四名的准确性,达到了 58.8%。
Sep, 2017