本文提出了一个几何感知的时间聚合模块和级联特征增强模块来解决显式处理自我运动和消除视角移动对音视觉定位的影响,并通过自我监督学习开发 Epic Sounding Object 数据集评估模型,证明了我们的方法在以人为中心的视频中取得了最先进的对象定位性能,并可以推广到不同的音视觉场景。
Mar, 2023
基于自监督方法,我们提出了一种学习表示的方法,基于主观视角视频中的空间音频 - 视觉对应关系。我们利用掩蔽自编码框架合成掩蔽的双耳音频,通过音频和视觉的协同作用来学习有用的空间关系。我们利用预先训练的特征来解决在社交场景中需要空间理解的两个下游视频任务:活跃说话者检测和空间音频去噪。通过大量实验证明,我们的特征足够通用,能够在两个公开具有挑战性的主观视角视频数据集 EgoCom 和 EasyCom 上改进多个最先进的基准模型。
Jul, 2023
通过利用人脸线索,特别是唇部区域以外的面部区域,来提高语音视觉增强的鲁棒性。
Nov, 2023
本文提出了一种深度音频 - 视觉语音增强网络,该网络可以通过对说话者的嘴唇动作和 / 或声音来分离说话者的声音,在嘴部区域引入人工遮挡并通过混合音频来训练模型,实现说话者独立,且在视觉感知受阻的情况下表现优异的应用。
Jul, 2019
本文提出了一种融合多感官表征的方法,通过神经网络自动预测视频帧和音频的时间对齐情况,实现声音定位、视听行为识别和音频源分离等三个应用。
Apr, 2018
本研究使用基于视听神经网络的视觉语音增强方法,在包含有目标演讲者语音的视频背景噪音情况下,通过口型运动提高演讲者语音的清晰度,在嘈杂的环境中实现了语音增强和噪音降低效果,相较于先前的视听方法在两个公共的口形读音数据集上表现更好,同时也是第一个在面向非口形读音的数据集(如巴拉克・奥巴马每周的演讲)上进行的示例研究。
Nov, 2017
该研究通过自监督的时间同步学习模型实现音频和视频分析的目的,模型能够在没有微调的情况下有效地识别出时序同步的音频 - 视频配对,并提供了一种非常有效的初始化方式以改善基于视频的动作识别模型的准确性。
Jun, 2018
本文提出了一种自我监督学习方法,用于学习视频的表示,结合了 RGB 帧和相关的音频,通过多模式对比目标来扩展时间自我监督的音频 - 视觉设置,并提出了新的对比目标。
Feb, 2023
本文介绍了一种利用两种视觉和听觉模态进行 egocentric 注视预测的模型,为此我们提出了一种对比时空可分的融合方法,并采用对比损失进行表示学习。我们使用 Ego4D 和 Aria 等数据集进行了广泛的实验验证,并在先前的最新方法上进行了改进。此外,我们提供了可视化来显示注视预测结果并提供了有关音频 - 视觉表示学习的其他见解。
May, 2023
本文提出了一种新的音频 - 视觉语音增强框架,利用个人化模型和神经语音编解码器从嘈杂的信号中高效合成真实干净的语音,以提高增强幅度和视角方面的质量。
Mar, 2022