CVPRMar, 2023

未剪辑视频中稠密定位视听事件:一个大规模基准和基线模型

TL;DR本文介绍了针对非修剪视频中具有多种类别音频 - 视觉事件的任务的挑战,提出了一个新的学习框架来解决此问题,并引入了第一个 Untrimmed Audio-Visual (UnAV-100) 数据集以验证其有效性。