视觉引导的音频混响去除

ICCVAug, 2023

AdVerb: Visually Guided Audio Dereverberation

Sanjoy Chowdhury, Sreyan Ghosh, Subhrajyoti Dasgupta, Anton Ratnarajah, Utkarsh Tyagi...

TL;DR提出一种新颖的音频 - 视觉去混响框架 AdVerb，利用视觉线索来估计清晰音频，通过几何感知的跨模态变换器架构捕捉场景几何和音频 - 视觉跨模态关系生成复杂的理想比例掩码，并应用于混响音频以预测清晰音频，通过广泛的定量和定性评估证明了该方法的有效性，在语音增强、语音识别和说话人验证三个下游任务上，相对改进范围为 18%-82%，在 AVSpeech 数据集上也取得了非常满意的 RT60 误差得分。

Abstract

We present adverb, a novel audio-visual dereverberation framework that uses visual cues in addition to the reverberant sound to estimate c

adverb audio-visual dereverberation visual cues geometry-aware cross-modal transformer architecture speech enhancement

发现论文，激发创造

AV-RIR：音频 - 视觉房间冲激响应估计

准确估计室内脉冲响应（Room Impulse Response，RIR）对于语音处理和增强实境 / 虚境应用非常重要。本文提出了 AV-RIR，一种新颖的多模态多任务学习方法，能够准确从给定的回声语音信号和对应环境的视觉线索中估计 RIR。AV-RIR 基于一种能有效捕捉环境几何和材质特性的新型神经编解码器架构，通过多任务学习将语音降噪作为辅助任务进行求解。我们还提出了 Geo-Mat 特征，将材料信息加入到视觉线索中，并通过图像 - RIR 检索改进了所估计的 RIR 中的后期混响成分。实证结果表明，AV-RIR 在 RIR 估计的各种声学度量标准上优于先前的仅音频和仅视觉方法，改进幅度在 36% 至 63% 之间。此外，它在人类评估中也获得了更高的偏好评分。作为一个附带效果，AV-RIR 的去混响语音在各种口语处理任务中显示出竞争性能，并在实际 AVSpeech 数据集中超过了混响时间误差评分。可以在此 https URL 找到合成的回声语音和增强后的语音的定性示例。

Nov, 2023

音频视觉端到端多通道语音分离、去混响和识别

通过全面将视频信息融入系统的所有组件，我们提出了一种音频 - 视觉多通道语音分离、去混响和识别方法，有效地解决了包含重叠发言者、噪声和混响的鸡尾酒会言语的准确识别问题。

Jul, 2023

AVA-AVD: 野外音视频说话人分离

本研究致力于提高在野外视频中识别 “谁何时说话” 的音视频扬声器分离的准确性，它创建了 AVA 音频 - 视觉扬声器分离（AVA-AVD）数据集和一种称为 AVR-Net 的新方法，通过加入 AVA-AVD 数据集的训练可以在相对较小的数据集上显着提高结果。

Nov, 2021

具有自适应视听关注的视觉感知音频字幕

本文提出了一种基于视觉感知的音频字幕生成方法，将来自视频的视觉信息整合到音频字幕系统中，采用音视频关注机制自适应地整合音频和视觉信息，显著提高了音频字幕系统的性能。

Oct, 2022

鲁棒性自监督视听语音识别

本文提出了一个基于 AV-HuBERT 模型的自监督音视频言语识别框架，利用 LRS3 数据集的少量标记数据，在噪音干扰的情况下提高了超过 50% 的性能，并且比基于音频的模型将词错误率减少了 75% 以上。

Jan, 2022

随地聆听

通过 DiffRIR 的不同 iable RIR 渲染框架，使用场景的参数化模型，合成具有各种声音特征的新的听觉体验。

Jun, 2024

2022 年 Ego4D 挑战赛中英特尔实验室：音视频对话更优秀的基线

报告中介绍了我们在 Ego4D Challenge 2022 中处理 Audio-Visual Diarization 任务的方法，该方法通过对模型的训练计划进行修改改进了声音活动的检测性能，证明了采用现成的语音活动检测模型可以有效地消除误报，而更好的主动说话者检测可提高 AVD 结果。我们的最终方法在 Ego4D 测试集上获得了 65.9% 的 DER，远远优于所有基线，在比赛中取得了第一名。

Oct, 2022

音视频语音编解码器：重新思考音视频语音增强通过再合成的方法

本文提出了一种新的音频 - 视觉语音增强框架，利用个人化模型和神经语音编解码器从嘈杂的信号中高效合成真实干净的语音，以提高增强幅度和视角方面的质量。

Mar, 2022

嘈杂环境下唇读识别：通用视音位映射与转移提升音视频语音识别鲁棒性

本文提出了一种基于视觉模态的无监督噪声适应方案，使用通用的音位 - 音素映射 (UniVPM) 技术从视觉信号中恢复干净音频从而扩展 AVSR 系统的噪声鲁棒性。在公共基准测试数据集 LRS3 和 LRS2 上进行的广泛实验表明，我们的方法在各种噪声和清晰条件下都达到了最先进水平，此外在视觉语音识别任务上也优于之前的最优水平。

Jun, 2023

通过交叉模态干扰抹除实境中的视听定位

本文提出了 Interference Eraser（IEr）框架，用于处理复杂的真实场景中的音频 - 视觉声源定位问题。通过增强音频表示和采用跨模态引用模块的跨模态蒸馏，消除混杂声音和噪音对音频 - 视觉连接的干扰，在定量和定性评估中，我们的框架取得了在声音定位任务上卓越的结果。

Feb, 2022