音频 - 视觉交叉模态条件语音提取中的分离

IJCAIApr, 2024

音频 - 视觉交叉模态条件语音提取中的分离

Separate in the Speech Chain: Cross-Modal Conditional Audio-Visual Target Speech Extraction

Zhaoxi Mu, Xinyu Yang

TL;DRAVSepChain 是一种多模态学习方法，通过将音频 - 视觉目标语音提取任务分为两个阶段（语音感知和语音产生），改善了模态不平衡的问题，并引入了对比语义匹配损失函数来确保生成的语音与语音产生阶段的唇部运动所传达的语义信息一致，实验结果表明该方法在多个基准数据集上具有卓越的性能。

Abstract

The integration of visual cues has revitalized the performance of the target speech extraction task, elevating it to the forefront of the field. Nevertheless, this multi-modal learning paradigm often encounters the challenge of →

visual cues target speech extraction modality imbalance avsepchain speech perception

发现论文，激发创造

探寻你的语音：学习音视频跨模态关联用于音视频语音分离

本文介绍了一种通过使用音频视觉神经处理技术解决从视频中分离个别语音信号的方法，提出了使用交叉模态亲和力网络（CaffNet）解决由于传输延迟不匹配或抖动引起的两种模态之间的帧不连续问题，并在复杂光谱领域上扩展该模型，实验结果表明此方法在各种数据集上优于传统方法，具有在实际场景中的优势。

Mar, 2021

VisualVoice: 跨模态一致性的音视频语音分离

提出一种基于面部出现和声音特征对语音进行分离的方法，可对五种基准数据集进行音视频语音分离和增强，而且具有较好的泛化性能。

Jan, 2021

时域音视频语音分离

本文介绍了一种新的时间域音视图架构，用于从单声道混合物中提取目标说话人，实验结果表明，相比于仅有声音的 TasNet 和频域音 - 视网络，我们的方法在两个和三个说话人的情况下分别可以提供 3dB + 和 4dB + 的信噪比改进。

Apr, 2019

多模态多通道目标语音分离

通过利用目标说话者的空间位置、声音特征和唇部运动，本研究提出了一种通用的多模态框架来实现目标语音分离，并探讨了多模态联合建模的融合方法。通过实验验证，该方法在真实情况下的强鲁棒性表现显著优于单模和双模语音分离方法，同时可支持实时处理。

Mar, 2020

基于深度学习的音视频语音增强和分离概述

本文系统综述了基于深度学习的音视频语音增强和分离技术，特别关注了声学和视觉特征、深度学习方法、融合技术以及训练目标和目标函数。同时，还回顾了基于深度学习的无声视频语音重建和语音信号分离的常见方法，并介绍了常用的音视频数据集和评估方法。

Aug, 2020

寻找鸡尾酒会中的发言者：一种基于音视频模型的独立演讲分离方法

我们提出了一种联合音频 - 视觉模型，用于从包括其它说话者和背景噪声在内的混合声音中分离单个语音信号，并且利用深度学习和 AVSpeech 数据集，实现了人脸指定后的语音分离任务，相较于仅使用音频的方法，在多说话人的情况下表现出更好的效果。

Apr, 2018

MixSpeech: 跨模态自学习中的音频 - 视觉流混合应用于视觉语音翻译和识别

本研究通过提出混合语音框架来克服跨语言视觉语音翻译中缺乏的可翻译数据问题，并提出在嘈杂环境下提高语音翻译效果的方法。

Mar, 2023

透视对话：基于扩散模型的音频 - 视觉语音分离

本文介绍了 AVDiffuSS，一种基于扩散机制的音视频语音分离模型，通过视觉线索从声音混合中提取目标发言者的声音，该模型在保持自然性方面具有挑战，并提出了一种基于交叉注意力的特征融合机制，以实现两种模态的有效融合，并在语音生成中集成语音视觉对应的语音信息，通过该提出的框架在 VoxCeleb2 和 LRS3 这两个基准测试上取得了最先进的结果，生成的语音具有显著更好的自然音质。

Oct, 2023

端到端音视频语音识别的模态注意力

该研究提出了一种基于多模态注意力的音视频语音识别方法，该方法使用了最先进的 Seq2seq 架构，基于它们的重要性自动学习了来自两种模态的混合表示，并在不同信噪比下相对于单独的音频模态获得了 2% 到 36% 的提高，相比传统的特征级联方法，在清洁和嘈杂的条件下均能获得更好的识别性能，可以轻松地推广到其他多模态任务中。

Nov, 2018

音频线索加强的音频视觉分割引导

提出了 AVSAC 方法，通过构建双向音频 - 视觉解码器并采用二向桥接设计，实现了音频线索的增强和音频与视觉模态之间的连续交互，从而缩小模态不平衡、促进整合音频 - 视觉表示的有效学习。此外，提出了音频 - 视觉帧同步策略，通过更好的同步音频组件与视觉特征，有助于更平衡的音频 - 视觉表示学习。大量实验证明，该方法在 AVS 性能方面取得了新的突破。

Feb, 2024