ICCVJan, 2021

ACAV100M: 大规模数据集自动筛选方法应用于视听视频表征学习

TL;DR本文提出了一种基于子集优化的自动数据集精选方法,目标是最大化视频中音频和视觉通道之间的互信息,证明此方法找到具有高音频 - 视觉对应性的视频,并展示我们的数据训练自我监督模型达到了与手动精选数据集相同的结果,最大的好处是可扩展性,我们发布了一个包含一亿个视频的 ACAV100M 数据集,它具有高音频 - 视觉对应性,非常适合用于自我监督学习。