- XLAVS-R:跨语言音视频言语表征学习用于噪音鲁棒言语感知
基于 XLAVS-R 的跨语言音频 - 视觉语音表示模型,在噪声环境下提高语音识别和翻译的鲁棒性,并在超过 100 种语言中显示出强大的跨语言音频 - 视觉能力。
- 音视少样本学习的文本特征传播
通过少量标记数据进行音视频数据的深度学习模型训练是一种更经济的方式,本研究提出了一种统一的音视频少样本视频分类基准,通过跨模态注意力融合时空和音视觉特征,并为新类别生成多模态特征,最终获得了最先进的音视频少样本学习表现。
- ICCV音视类增量学习
通过引入双通道音频 - 视觉相似性约束(D-AVSC)和视觉注意聚焦(VAD)的音频 - 视觉类增量学习方法(AV-CIL),维持音频 - 视觉模态之间的实例感知和类感知语义相似性,保留先前学习的音频指导训练能力,从而克服了当前方法在不断增 - 多模态平衡感知梯度调控弱监督音视频解析
本文提出了一种利用动态梯度调制机制来平衡不同语音和视觉模态特征学习的方法,并设计了一种实现精确测量的模态分离决策单元来处理多模式混淆问题, 实验证明该方法的有效性。
- STARSS23: 具有声音事件的时空注释的真实场景空间录音的音频 - 视觉数据集
本文提出了一个音频 - 视频声音事件本地化和检测(SELD)任务,它使用多通道音频和视频信息来估计目标声音事件的时间激活和 DOA。音频 - 视觉 SELD 系统可以使用来自麦克风阵列和音频 - 视觉对应的信号来检测和定位声音事件,并介绍了 - NPVForensics: 捆绑非关键音位和视位以便深度伪造检测
本文提出了一种新的 Deepfake 检测方法(称为 NPVForensics),在现有的多模态检测方法基础上,通过挖掘非关键音位和唇位相关性,构建相应面部特征流,设计精细的动作损失函数,以及跨模态特征融合和表示对齐模块,最终使用自监督预训 - 轻量级迭代模型在嘈杂环境下的音像语音分离
本文提出了一种名为 AVLIT 的轻量级神经网络,使用渐进学习(PL)在嘈杂的环境中进行音视频语音分离。通过异步完全循环卷积神经网络(A-FRCNN)的结构分支,我们的模型在音频和视觉两个分支下进行迭代学习,并在音频和视觉分离方面表现出较高 - MuAViC: 一个用于稳健语音识别和文本翻译的多语言音视频语料库
MuAViC 是首个开放的多语言视听数据集,共提供了 1200 小时覆盖 9 种语言的视听数据,可应用于嘈杂环境下的语音识别和翻译模型构建。
- 汉英双语中,使用改进的装订器增强音像 HUBERT 的实践
该论文介绍了一种混合方法,名为 conformer-enhanced AV-HuBERT,该方法在语音识别方面的表现进一步提高。该方法基于 AV-HuBERT,在一个清洁和嘈杂环境下分别实现了相对 WER 降低 7%和 16%。除此之外,该 - AAAI时序自监督的音视频对比学习
本文提出了一种自我监督学习方法,用于学习视频的表示,结合了 RGB 帧和相关的音频,通过多模式对比目标来扩展时间自我监督的音频 - 视觉设置,并提出了新的对比目标。
- OLKAVS: 一个开放的大规模韩语音频 - 视觉语音数据集
提出了韩文的开放式大规模多模音视频数据集(OLKAVS)及其对多模态研究的促进作用。
- MM具备音视频先验的极限规模讲话脸部视频升频
本文探讨了如何从一个 $8 imes8$ 像素的视频序列中获得丰富的信息,通过音频和图像的先验知识以及提出的音视频上采样网络,我们成功实现了 $32 imes$ 的视频放大,进一步在说话人视频压缩领域实现了 $3.5 imes$ 的比特率改 - ECCVAudioScopeV2:音视频注意力架构的开放域屏幕声音分离校准
AudioScopeV2 是一个最先进的通用音频视觉屏幕上声音分离系统,能够通过观察野外视频来学习分离声音并将它们与屏幕上的对象关联起来,并提出了解决先前工作的若干限制的解决方案,并通过新的数据集进行评估,最终取得了显着的改进。
- ECCV音视频零样本学习的时间和跨模态注意力
该研究提出了一种多模态和时间交叉注意力框架,可以利用音频和视觉信息的自然语义和时间对齐关系来实现音频 - 视觉广义零样本学习,并在多个基准测试中取得了最先进的性能。
- MM利用变换不变性和等变性进行自监督声音定位
提出一种简单而有效的自监督框架,用于音频 - 视觉表示学习,以定位视频中的声音源。通过系统地研究数据增强的效果,揭示出数据增强的组成对学习有用的表示起到了至关重要的作用,并且实验证明了该模型在两个声音定位基准测试上显著优于以前的方法。
- ECCV弱监督音视频解析联合模态标签去噪
本文旨在解决弱监督下视听视频解析任务中的异态噪声标签问题,并提出了一种标签清理的训练策略。通过将每个模态中每个实例的损失进行排序并根据损失的关系选择噪声样本,我们的方法在视觉指标方面取得了明显进展,从而表明我们的方法是有效的。
- ICCV记忆中的多模态联想桥接:从面部视频中回溯语音声音
本文提出了一种新颖的音频 - 视觉多模态桥接框架,它可以利用音频和视觉信息,并通过 associative bridge 从记忆网络中获取目标模态表示,将其应用于唇语阅读和静音视频的语音重建,具有当前最先进性能。
- 简单实现的视觉声音定位
本文提出了一种名为 EZ-VSL 的简单而有效的无监督音频 - 视觉源定位方法,旨在识别视频中的可见声源,其采用对齐音频和视觉空间的方法来实现,在 Flickr SoundNet 和 VGG-Sound Source 数据集上均取得了良好的 - 基于神经网络剪枝的迭代微调设计紧凑型视听唤醒词识别系统研究
本文提出了一种使用神经网络剪枝策略的紧凑型音视频唤醒词识别系统,该系统利用 MobileNet 对唇部信息进行编码,并与声学特征进行融合,大大提高了在不同噪声条件下的唤醒词识别性能,可望在电视开机场景下实现实际应用。
- 基于语义相似样本更好地学习声音定位
本文的目标是在视觉场景中定位声源。我们的研究发现,之前的视听学习将语义匹配的音视频信息错误地分为负例,我们的方法直接将这些 “硬正例” 与响应图纳入对比学习目标,证明在 VGG-SS 和 SoundNet-Flickr 测试集上表现优异。