视频广告理解的多模态框架
广告视频对于互联网电子商务领域至关重要,通过简洁的叙事结构,它们可以将特定产品的影响力扩大到广泛的观众,或者作为提高意识的媒介来引起特定问题的关注。本研究提出了一个多模态多语言的基准模型 MM-AU,通过收集来自多个网络来源的超过 8.4K 个视频(147 小时),以三个重要维度(主题分类、感知色调转变和社会信息检测)促进对广告的理解,并通过在广告剧本上应用大型语言模型来探索多个零 - shot 推理基线。此外,我们证明,在多模态变压器模型中利用音频、视频和文本等多种信号,相比单模态方法,可以提高性能。
Aug, 2023
为了更好地了解广告的主题和情感,本文提出了一种新颖的深度多模态多任务框架,将多种模态整合起来,同时实现广告的主题和情感的预测。通过多模态注意力模块,该模型在最新的大型广告数据集上实现了最先进的性能。
Dec, 2019
基于多模态的视频主题分段器利用视频转录和帧,结合跨模态注意机制,提出了一种双对比学习框架,从而提高我们的模型对更长、更语义复杂的视频的适应能力。在短视频和长视频集合上的实验证明,我们的解决方案明显优于基准方法,无论是准确度还是可转移性,在域内和跨领域设置下都有显著提升。
Nov, 2023
通过对视频的各种形式进行联合分析(包括视频帧、音频和任何附带文本),我们提出了一种学习紧凑的多模态特征表示形式的方法,证明了多模态表示是互补的,可以在提高许多应用性能中发挥关键作用。
Apr, 2020
本文研究如何利用多模态线索来改进视频分类。我们提出了一个混合的深度学习框架,它将静态空间外观信息、短时间内的运动模式、音频信息以及长时序动态性等多个模态的线索集成起来,以捕捉它们之间的关系,并通过多次实验表明,该框架可以提高视频分类的准确度。
Jun, 2017
本文提出了一种新的视频字幕生成方法,利用多种视觉特征和语义属性的层次,采用 LSTM 网络进行句子生成,实现自动选取最突出的视觉特征或语义属性,有望提高字幕生成的精确度。实验结果表明,该框架胜过现有最先进的方法,并可进一步提升精度至近于人类水平。
Dec, 2016
本文提出了一种多模态视频分割方法,通过语言引导的特征融合模块和多模态对齐损失函数,将视觉外观、运动信息和语言特征融合,实现了精准的文本视频分割。在 A2D Sentences 和 J-HMDB Sentences 数据集上的实验表明,该方法与现有方法相比具有更好的性能和泛化能力。
Apr, 2022
本文提出了一种称为多模态注意力的方法,可以针对图像特征、运动特征和音频特征进行选择性关注,以促进视频描述的多模态信息融合,并在 Youtube2Text 数据集上取得了竞争状态 - of-the-art 的结果。
Jan, 2017
本文提出一种多注意力机制的模型来解决视频理解中的时间定位问题,模型结合了多个注意力网络、深度帧模型、循环神经网络和卷积神经网络,并基于多实例多标签学习和 attention 权重来加强对视频中重要帧的关注,从而在 YouTube-8M Video Understanding Challenge 中取得了较好的成绩。
Nov, 2019