TDFNet：一种高效的音频 - 视觉语音分离模型与自顶向下融合

Jan, 2024

TDFNet：一种高效的音频 - 视觉语音分离模型与自顶向下融合

TDFNet: An Efficient Audio-Visual Speech Separation Model with Top-down Fusion

Samuel Pegg, Kai Li, Xiaolin Hu

TL;DR在本文中，我们提出了一种名为 TDFNet 的音视频语音分离模型，该模型建立在 TDANet 架构基础上，以更高效的方式实现声音和图像网络的融合，使得在音视频领域的语音分离具有更高效和高效的解决方案，并在性能上显著超越了以前的最先进方法 CTCNet。

Abstract

audio-visual speech separation has gained significant traction in recent years due to its potential applications in various fields such as speech recognition, diarization, →

audio-visual speech separation tdfnet speech recognition diarization scene analysis

发现论文，激发创造

RTFS-Net: 循环时间频率建模有效的音频视觉语音分离

本文提出了一种新颖的基于时频域的音视频语音分离方法：递归时频分离网络 (RTFS-Net)，通过在短时傅里叶变换产生的复杂时频区间上运用算法来独立地对音频的时间和频率进行建模，并引入了独特的基于注意力的融合技术，以有效地整合音频和视觉信息，并利用声学特征的固有谱特性进行更清晰的分离。RTFS-Net 在仅使用 10% 的参数和 18% 的 MAC 时，超越了先前的最先进方法。这是首个在时频域中超越所有当代时域对应方法的音视频语音分离方法。

Sep, 2023

时域音视频语音分离

本文介绍了一种新的时间域音视图架构，用于从单声道混合物中提取目标说话人，实验结果表明，相比于仅有声音的 TasNet 和频域音 - 视网络，我们的方法在两个和三个说话人的情况下分别可以提供 3dB + 和 4dB + 的信噪比改进。

Apr, 2019

一种高效的编码器 - 解码器体系结构，具有自上而下的注意力，用于语音分离

本文提出了一种模拟大脑自上而下关注机制的、模型复杂度较低但表现优异的基于编码器 - 解码器的深度神经网络架构 TDANet，并在三个基准数据集上验证其高效性和有效性。

Sep, 2022

TasNet: 用于实时单声道语音分离的时域音频分离网络

本文针对多说话人环境下的鲁棒语音处理，提出了使用时域音频分离网络 (TasNet) 直接对信号进行建模，通过编码器输出估计源掩码、并经过解码器进行合成的方法，该方法适用于实时应用，并能在低功耗情况下完成语音分离任务，是当前最先进的语音分离算法之一。

Nov, 2017

透视对话：基于扩散模型的音频 - 视觉语音分离

本文介绍了 AVDiffuSS，一种基于扩散机制的音视频语音分离模型，通过视觉线索从声音混合中提取目标发言者的声音，该模型在保持自然性方面具有挑战，并提出了一种基于交叉注意力的特征融合机制，以实现两种模态的有效融合，并在语音生成中集成语音视觉对应的语音信息，通过该提出的框架在 VoxCeleb2 和 LRS3 这两个基准测试上取得了最先进的结果，生成的语音具有显著更好的自然音质。

Oct, 2023

VoViT: 基于图论的低延迟音视频语音分离 Transformer

本文提出了一种音频 - 视觉声音分离方案，在两种不同场景（语音和唱歌）中实现了低时延的最新成果。该模型基于两级网络，采用轻量级图卷积网络从面部标记中提取运动线索，然后将视觉和音频特征输入到音频 - 视觉转换器中，为目标源的隔离估计提供相当不错的结果。在第二阶段，利用音频网络增强了主要的声音。我们进行了不同的消融研究和与最先进的方法比较。最后，我们探讨了在唱声分离任务中训练语音分离模型的可转移性。

Mar, 2022

基于深度学习的音视频语音增强和分离概述

本文系统综述了基于深度学习的音视频语音增强和分离技术，特别关注了声学和视觉特征、深度学习方法、融合技术以及训练目标和目标函数。同时，还回顾了基于深度学习的无声视频语音重建和语音信号分离的常见方法，并介绍了常用的音视频数据集和评估方法。

Aug, 2020

寻找鸡尾酒会中的发言者：一种基于音视频模型的独立演讲分离方法

我们提出了一种联合音频 - 视觉模型，用于从包括其它说话者和背景噪声在内的混合声音中分离单个语音信号，并且利用深度学习和 AVSpeech 数据集，实现了人脸指定后的语音分离任务，相较于仅使用音频的方法，在多说话人的情况下表现出更好的效果。

Apr, 2018

端到端音视频语音识别

本文提出了一种基于残差网络和双向门控循环单元 (BGRU) 的端到端视听模型，该模型是第一个在大型公开数据集 (LRW) 上学习直接从图像像素和音频波形提取特征并进行语境内单词识别的视听融合模型，并取得了比端到端仅音频模型和基于 MFCC 的模型更好的分类效果。

Feb, 2018

实时低延迟音乐源分离使用混合的谱图 - TasNet

通过借鉴 Hybrid Demucs 架构，本文提出了混合谱图时域音频分离网络（HS-TasNet），结合了频谱和波形域的优势，为实时低延迟的音乐应用展现了高效分离的潜力。

Feb, 2024