ICCVAug, 2023

视觉引导的音频混响去除

TL;DR提出一种新颖的音频 - 视觉去混响框架 AdVerb,利用视觉线索来估计清晰音频,通过几何感知的跨模态变换器架构捕捉场景几何和音频 - 视觉跨模态关系生成复杂的理想比例掩码,并应用于混响音频以预测清晰音频,通过广泛的定量和定性评估证明了该方法的有效性,在语音增强、语音识别和说话人验证三个下游任务上,相对改进范围为 18%-82%,在 AVSpeech 数据集上也取得了非常满意的 RT60 误差得分。