腾讯多模态广告视频理解挑战赛简介

MMSep, 2021

腾讯多模态广告视频理解挑战赛简介

Overview of Tencent Multi-modal Ads Video Understanding Challenge

Zhenzhi Wang, Liyu Wu, Zhimin Li, Jiangfeng Xiong, Qinglin Lu

TL;DR本文介绍了一个新的挑战赛，旨在全面理解广告视频。该挑战包含两个任务：时间维度的视频结构化和多模式视频分类。

Abstract

Multi-modal Ads Video Understanding Challenge is the first grand challenge aiming to comprehensively understand ads videos. Our challenge includes two tasks: video structuring in the temporal dimension and multi-modal video classification. It asks the participants to accurately predict both the scene boundaries and the multi-label categories of each scene ba

广告视频多模式信息时间分段多标签分类挑战赛

发现论文，激发创造

视频广告理解的多模态框架

该论文介绍了一种利用多模态技术实现广告视频内容结构化分析的系统，包括场景分割和多模态标记两个任务，通过视觉和文本特征相结合的方法，在 2021 年 TAAC 竞赛中获得了 0.2470 的高得分。

Aug, 2021

多模式多任务学习中广告理解基准测试

为了更好地了解广告的主题和情感，本文提出了一种新颖的深度多模态多任务框架，将多种模态整合起来，同时实现广告的主题和情感的预测。通过多模态注意力模块，该模型在最新的大型广告数据集上实现了最先进的性能。

Dec, 2019

MM-AU: 广告视频的多模态理解

广告视频对于互联网电子商务领域至关重要，通过简洁的叙事结构，它们可以将特定产品的影响力扩大到广泛的观众，或者作为提高意识的媒介来引起特定问题的关注。本研究提出了一个多模态多语言的基准模型 MM-AU，通过收集来自多个网络来源的超过 8.4K 个视频（147 小时），以三个重要维度（主题分类、感知色调转变和社会信息检测）促进对广告的理解，并通过在广告剧本上应用大型语言模型来探索多个零 - shot 推理基线。此外，我们证明，在多模态变压器模型中利用音频、视频和文本等多种信号，相比单模态方法，可以提高性能。

Aug, 2023

多模态视频主题分割与双对比领域适应

基于多模态的视频主题分段器利用视频转录和帧，结合跨模态注意机制，提出了一种双对比学习框架，从而提高我们的模型对更长、更语义复杂的视频的适应能力。在短视频和长视频集合上的实验证明，我们的解决方案明显优于基准方法，无论是准确度还是可转移性，在域内和跨领域设置下都有显著提升。

Nov, 2023

上下文化的 AD 叙述与交错的多模式序列

通过使用预训练的基础模型和统一的框架，我们提出了 Uni-AD 方法，以交错的多模态顺序作为输入生成音频描述，该方法通过将视频特征映射到文本特征空间以实现不同模态特征的更好对齐，并引入角色细化模块识别在视频上下文中发挥更重要作用的主要角色，同时结合上下文信息和对比损失进一步增强了生成的音频描述的平滑性和连贯性，实验结果表明 Uni-AD 在音频描述生成上取得了最先进的性能。

Mar, 2024

使用视频、音频和文本进行真正的多模态 YouTube-8M 视频分类

该研究通过引入文本数据将视频分类问题转化为多模态任务，并针对该任务提出了一种分类框架，结合视觉、音频和文本特征进行研究探究。实验结果表明，利用文本特征可提高分类准确率。

Jun, 2017

YouTube-8M Kaggle 竞赛：挑战和方法

本文介绍了我们参加 YouTube-8M 视频理解挑战的经历和成果，并提供了基于帧级数据的机器学习问题的深入分析和解决方案。我们通过统一平均的多剪辑集成方法，只使用提出的策略就实现了前十名的成绩，同时也介绍了一些有潜力但时间不足无法训练到收敛的方法。希望本文能起到对 YouTube-8M 多标签视频分类基准的一定回顾和指导作用，激发未来尝试和研究的灵感。

Jun, 2017

视频排序的深度多模态特征编码

通过对视频的各种形式进行联合分析（包括视频帧、音频和任何附带文本），我们提出了一种学习紧凑的多模态特征表示形式的方法，证明了多模态表示是互补的，可以在提高许多应用性能中发挥关键作用。

Apr, 2020

KAFA: 基于知识增强特征自适应的视觉语言模型重构图像广告理解

本文通过使用预训练的 VLM（基础视觉语言模型）进行第一次实证研究图片广告的理解。在此过程中，我们发现了适应这些 VLM 到图像广告理解中的实际挑战，并提出了一种简单的特征适应策略来有效融合图像广告的多模态信息，并进一步强化其对真实世界实体的知识。希望我们的研究能引起更多人对与广告行业广泛相关的图片广告理解的关注。

May, 2023

不要购买！重新评估对比式多模态模型的广告理解能力

通过对自动广告理解的对比图像与语言模型进行对比，我们提出了一个新的评估测试集 TRADE，该测试集具有对抗性的基本解释，揭示出模型在多模态推理能力方面的不足。

May, 2024