Apr, 2024

UniAV:统一的音频视觉感知支持多任务视频定位

TL;DRUniAV 是一种统一的视听感知网络,可以联合学习时间动作定位(TAL)、声音事件检测(SED)和视听事件定位(AVEL)任务,并通过使用预训练的文本编码器设计统一的语言感知分类器,实现对各种类型实例的灵活检测。UniAV 通过更少的参数比单一任务模型,在 ActivityNet 1.3、DESED 和 UnAV-100 基准测试中取得与最先进的任务特定方法相当或优秀的性能。