音频 - 视觉交叉模态条件语音提取中的分离
本文介绍了一种通过使用音频视觉神经处理技术解决从视频中分离个别语音信号的方法,提出了使用交叉模态亲和力网络(CaffNet)解决由于传输延迟不匹配或抖动引起的两种模态之间的帧不连续问题,并在复杂光谱领域上扩展该模型,实验结果表明此方法在各种数据集上优于传统方法,具有在实际场景中的优势。
Mar, 2021
本文介绍了一种新的时间域音视图架构,用于从单声道混合物中提取目标说话人,实验结果表明,相比于仅有声音的 TasNet 和频域音 - 视网络,我们的方法在两个和三个说话人的情况下分别可以提供 3dB + 和 4dB + 的信噪比改进。
Apr, 2019
通过利用目标说话者的空间位置、声音特征和唇部运动,本研究提出了一种通用的多模态框架来实现目标语音分离,并探讨了多模态联合建模的融合方法。通过实验验证,该方法在真实情况下的强鲁棒性表现显著优于单模和双模语音分离方法,同时可支持实时处理。
Mar, 2020
本文系统综述了基于深度学习的音视频语音增强和分离技术,特别关注了声学和视觉特征、深度学习方法、融合技术以及训练目标和目标函数。同时,还回顾了基于深度学习的无声视频语音重建和语音信号分离的常见方法,并介绍了常用的音视频数据集和评估方法。
Aug, 2020
我们提出了一种联合音频 - 视觉模型,用于从包括其它说话者和背景噪声在内的混合声音中分离单个语音信号,并且利用深度学习和 AVSpeech 数据集,实现了人脸指定后的语音分离任务,相较于仅使用音频的方法,在多说话人的情况下表现出更好的效果。
Apr, 2018
本研究通过提出混合语音框架来克服跨语言视觉语音翻译中缺乏的可翻译数据问题,并提出在嘈杂环境下提高语音翻译效果的方法。
Mar, 2023
本文介绍了 AVDiffuSS,一种基于扩散机制的音视频语音分离模型,通过视觉线索从声音混合中提取目标发言者的声音,该模型在保持自然性方面具有挑战,并提出了一种基于交叉注意力的特征融合机制,以实现两种模态的有效融合,并在语音生成中集成语音视觉对应的语音信息,通过该提出的框架在 VoxCeleb2 和 LRS3 这两个基准测试上取得了最先进的结果,生成的语音具有显著更好的自然音质。
Oct, 2023
该研究提出了一种基于多模态注意力的音视频语音识别方法,该方法使用了最先进的 Seq2seq 架构,基于它们的重要性自动学习了来自两种模态的混合表示,并在不同信噪比下相对于单独的音频模态获得了 2% 到 36% 的提高,相比传统的特征级联方法,在清洁和嘈杂的条件下均能获得更好的识别性能,可以轻松地推广到其他多模态任务中。
Nov, 2018
提出了 AVSAC 方法,通过构建双向音频 - 视觉解码器并采用二向桥接设计,实现了音频线索的增强和音频与视觉模态之间的连续交互,从而缩小模态不平衡、促进整合音频 - 视觉表示的有效学习。此外,提出了音频 - 视觉帧同步策略,通过更好的同步音频组件与视觉特征,有助于更平衡的音频 - 视觉表示学习。大量实验证明,该方法在 AVS 性能方面取得了新的突破。
Feb, 2024