自我中心视听噪声抑制

Nov, 2022

Egocentric Audio-Visual Noise Suppression

Roshan Sharma, Weipeng He, Ju Lin, Egor Lakomkin, Yang Liu...

TL;DR该论文研究了对自我中心视角视频的音频 - 视觉抑制，发现视觉信息有助于噪声抑制，提出了多任务学习框架来同时优化音频 - 视觉噪声抑制和基于视频的声音事件检测，并表明该模型在不同的噪声类型和信噪比下均比传统的音频模型更具有优势。

Abstract

This paper studies audio-visual suppression for egocentric videos -- where the speaker is not captured in the video. Instead, potential noise sources are visible on screen with the camera emulating the off-screen

audio-visual suppression egocentric videos visual feature extractors multi-task learning acoustic event detection

发现论文，激发创造

自我中心视听物体定位

本文提出了一个几何感知的时间聚合模块和级联特征增强模块来解决显式处理自我运动和消除视角移动对音视觉定位的影响，并通过自我监督学习开发 Epic Sounding Object 数据集评估模型，证明了我们的方法在以人为中心的视频中取得了最先进的对象定位性能，并可以推广到不同的音视觉场景。

Mar, 2023

从视听一致性中学习自我中心视频的空间特征

基于自监督方法，我们提出了一种学习表示的方法，基于主观视角视频中的空间音频 - 视觉对应关系。我们利用掩蔽自编码框架合成掩蔽的双耳音频，通过音频和视觉的协同作用来学习有用的空间关系。我们利用预先训练的特征来解决在社交场景中需要空间理解的两个下游视频任务：活跃说话者检测和空间音频去噪。通过大量实验证明，我们的特征足够通用，能够在两个公开具有挑战性的主观视角视频数据集 EgoCom 和 EasyCom 上改进多个最先进的基准模型。

Jul, 2023

协同双重注意力的音视频语音增强与面部线索

通过利用人脸线索，特别是唇部区域以外的面部区域，来提高语音视觉增强的鲁棒性。

Nov, 2023

嘴唇闭合：透过障碍物进行视听言语增强

本文提出了一种深度音频 - 视觉语音增强网络，该网络可以通过对说话者的嘴唇动作和 / 或声音来分离说话者的声音，在嘴部区域引入人工遮挡并通过混合音频来训练模型，实现说话者独立，且在视觉感知受阻的情况下表现优异的应用。

Jul, 2019

自监督多感官特征的音频 - 视觉场景分析

本文提出了一种融合多感官表征的方法，通过神经网络自动预测视频帧和音频的时间对齐情况，实现声音定位、视听行为识别和音频源分离等三个应用。

Apr, 2018

视觉语音增强

本研究使用基于视听神经网络的视觉语音增强方法，在包含有目标演讲者语音的视频背景噪音情况下，通过口型运动提高演讲者语音的清晰度，在嘈杂的环境中实现了语音增强和噪音降低效果，相较于先前的视听方法在两个公共的口形读音数据集上表现更好，同时也是第一个在面向非口形读音的数据集（如巴拉克・奥巴马每周的演讲）上进行的示例研究。

Nov, 2017

自监督同步下的音频和视频模型协同学习

该研究通过自监督的时间同步学习模型实现音频和视频分析的目的，模型能够在没有微调的情况下有效地识别出时序同步的音频 - 视频配对，并提供了一种非常有效的初始化方式以改善基于视频的动作识别模型的准确性。

Jun, 2018

时序自监督的音视频对比学习

本文提出了一种自我监督学习方法，用于学习视频的表示，结合了 RGB 帧和相关的音频，通过多模式对比目标来扩展时间自我监督的音频 - 视觉设置，并提出了新的对比目标。

Feb, 2023

听取未来：音视频自我中心注视预测

本文介绍了一种利用两种视觉和听觉模态进行 egocentric 注视预测的模型，为此我们提出了一种对比时空可分的融合方法，并采用对比损失进行表示学习。我们使用 Ego4D 和 Aria 等数据集进行了广泛的实验验证，并在先前的最新方法上进行了改进。此外，我们提供了可视化来显示注视预测结果并提供了有关音频 - 视觉表示学习的其他见解。

May, 2023

音视频语音编解码器：重新思考音视频语音增强通过再合成的方法

本文提出了一种新的音频 - 视觉语音增强框架，利用个人化模型和神经语音编解码器从嘈杂的信号中高效合成真实干净的语音，以提高增强幅度和视角方面的质量。

Mar, 2022