May, 2023

一种统一的音视频学习框架:局部化、分离与识别

TL;DR该研究提出了一种名为 OneAVM 的联合学习框架,该框架可以用于音频 - 视频源定位、分离和识别任务,其中共享的音频 - 视频编码器和任务特定的解码器是通过三个目标进行训练,包括本地化的音频 - 视觉对应丢失、视觉源分离和选择和用于强化视觉特征分离和定位的像素空间混合。经过在多个数据集上的广泛实验,证明了 OneAVM 的有效性,并在音频 - 视觉源定位、分离和最近邻识别任务之间展现了强大的正向转移。