ECCVJul, 2022

AudioScopeV2:音视频注意力架构的开放域屏幕声音分离校准

TL;DRAudioScopeV2 是一个最先进的通用音频视觉屏幕上声音分离系统,能够通过观察野外视频来学习分离声音并将它们与屏幕上的对象关联起来,并提出了解决先前工作的若干限制的解决方案,并通过新的数据集进行评估,最终取得了显着的改进。