CVPRMar, 2023
未剪辑视频中稠密定位视听事件:一个大规模基准和基线模型
Dense-Localizing Audio-Visual Events in Untrimmed Videos: A Large-Scale Benchmark and Baseline
Tiantian Geng, Teng Wang, Jinming Duan, Runmin Cong, Feng Zheng
TL;DR本文介绍了针对非修剪视频中具有多种类别音频 - 视觉事件的任务的挑战,提出了一个新的学习框架来解决此问题,并引入了第一个 Untrimmed Audio-Visual (UnAV-100) 数据集以验证其有效性。