使用视频、音频和文本进行真正的多模态 YouTube-8M 视频分类

CVPRJun, 2017

使用视频、音频和文本进行真正的多模态 YouTube-8M 视频分类

Truly Multi-modal YouTube-8M Video Classification with Video, Audio, and Text

Zhe Wang, Kingsley Kuan, Mathieu Ravaut, Gaurav Manek, Sibo Song...

TL;DR该研究通过引入文本数据将视频分类问题转化为多模态任务，并针对该任务提出了一种分类框架，结合视觉、音频和文本特征进行研究探究。实验结果表明，利用文本特征可提高分类准确率。

Abstract

The youtube-8m video classification challenge requires teams to classify 0.7 million videos into one or more of 4,716 classes. In this Kaggle competition, we placed in the top 3% out of 650 participants using rel

youtube-8m video classification multimodal text audio

发现论文，激发创造

YouTube-8M: 大规模视频分类基准

该论文介绍了一个由 4800 个可视实体组成，由 8 百万个视频（500k 小时的视频）组成的最大多标签视频分类数据集 YouTube-8M，并通过训练各种分类模型和评估它们来作为基准。

Sep, 2016

针对 YouTube-8M 数据集的多标签视频分类的视频和标签先验编码

本文介绍了针对 YouTube-8M 数据集进行多标签视频分类的深度神经网络模型，包括帧编码器、分类层、标签处理层和损失函数，并讨论了现有模型在该数据集上的效果及其成功或失败的原因，所提出的模型的大部分性能都高于基线模型，并且最终的模型集合在 Kaggle 比赛中排名第 8。

Jun, 2017

UTS 提交给 Google YouTube-8M Challenge 2017

该研究提出了一种结合视频级别和帧级别特征识别的混合模型方法，使用循环神经网络、注意力机制和 1D 卷积模型实现帧级别分类，并使用集成模型在私人测试数据集上实现 GAP 0.8408 的分类效果。

Jul, 2017

语言作为媒介：通过仅文本进行多模态视频分类

通过利用大型语言模型（如 GPT-3.5 或 Llama2）的广泛知识，结合 BLIP-2、Whisper 和 ImageBind 获取的视觉和听觉多模态文本描述，我们提出了一种新的模型不可知方法，用于生成捕捉多模态视频信息的详细文本描述。我们的评估结果表明，这种基于文本描述的方法在视频理解任务中取得了成功，为多模态分类提供了一个有前景的新研究方向。

Sep, 2023

YouTube-8M Kaggle 竞赛：挑战和方法

本文介绍了我们参加 YouTube-8M 视频理解挑战的经历和成果，并提供了基于帧级数据的机器学习问题的深入分析和解决方案。我们通过统一平均的多剪辑集成方法，只使用提出的策略就实现了前十名的成绩，同时也介绍了一些有潜力但时间不足无法训练到收敛的方法。希望本文能起到对 YouTube-8M 多标签视频分类基准的一定回顾和指导作用，激发未来尝试和研究的灵感。

Jun, 2017

视频和音频检索的跨模态嵌入

本文介绍了一种利用 YouTube-8M 数据库中视听文件间共同区域来建立联系以自主训练深度神经网络的方法，实现了跨模态特征学习的无监督方法，并得出了良好的检索结果。

Jan, 2018

在 YouTube-8M 数据集上进行多标签视频分类的方法

利用 NetVLAD 和 NetFV 模型，使用 Huber 损失函数和 YouTube-8M 数据集实现视频分类问题，采用各种技术和优化方法，最终得到 GAP 得分 0.8668。

Aug, 2018

从视觉和声音模态获取无文本情感的可扩展多模态情感分类

本文介绍了一种多模态融合模型，该模型专门使用高级视频和音频特征来分析口语句子的情感。该模型在 CMUMOSEI 数据集上进行了训练和测试，并获得了验证集上的 F1 得分 0.8049 和挑战测试集上的 F1 得分 0.6325。

Jul, 2018

大规模 YouTube-8M 视频理解的时间建模方法

该论文介绍了我们的解决方案，用于 Google Cloud 和 YouTube-8M 视频理解挑战的视频识别任务，我们通过各种时间建模方法对帧级特征进行聚合以提高多标签视频识别的准确性，并在 Kaggle 的公共测试集上取得了 82.75% 的性能提升。

Jul, 2017

一个基于混合深度学习框架的视频分类多模态信息建模模型

本文研究如何利用多模态线索来改进视频分类。我们提出了一个混合的深度学习框架，它将静态空间外观信息、短时间内的运动模式、音频信息以及长时序动态性等多个模态的线索集成起来，以捕捉它们之间的关系，并通过多次实验表明，该框架可以提高视频分类的准确度。

Jun, 2017