实时双耳语音分离并保留空间提示

Feb, 2020

实时双耳语音分离并保留空间提示

Real-time binaural speech separation with preserved spatial cues

Cong Han, Yi Luo, Nima Mesgarani

TL;DR本文提出了一种基于 TasNet 的多输入多输出的语音分离算法，该算法能够保留声源的空间信息，实现实时修改声学场景，并在不同声学场景中显著改善分离性能并保持位置感知。

Abstract

deep learning speech separation algorithms have achieved great success in improving the quality and intelligibility of separated speech from mixed audio. Most previous methods focused on generating a single-chann

deep learning speech separation spatial cues interaural cues real-time

发现论文，激发创造

双耳角度分离网络

我们提出了一个神经网络模型，可以使用两个麦克风在不同的角度区域将目标语音源与干扰源分离。该模型使用模拟的室内脉冲响应进行训练，无需收集真实的脉冲响应。通过依赖特定的角度区域和多个房间模拟，该模型利用一致的到达时间差（TDOA）线索，或者我们称之为延迟对比，将目标和干扰源分离，同时在各种混响环境中保持稳健性。我们展示了该模型不仅适用于具有稍微不同麦克风几何结构的商用设备，而且优于我们之前使用同一设备上的一个额外麦克风的工作。该模型在设备上实时运行，适用于低延迟的流媒体应用，如电话和视频会议。

Jan, 2024

时空神经滤波器：方向感知的端对端多通道目标语音分离

本文提出了一种时空神经滤波器，通过方向信息的辅助作用，从具有混响的多人语音混合物中直接估计目标语音波形，以提高目标和干扰源之间的时域、频域和空域可辨识度，并设计了一种全卷积自动编码器框架用于快速和端到端的语音分离处理。

Jan, 2020

SAGRNN：自我注意门控循环神经网络在双耳说话人分离中保留双耳线索

本研究使用深度学习技术改进双耳扬声器分离系统，通过引入自我关注机制和密集连接，保留相互耳提示信息，得到比最近的分离方法更好的性能，且提高了声音定位准确度。

Sep, 2020

学习通过空间区域分离音频

本文提出一种两阶段的自我监督框架，旨在实现耳机和助听器等双耳应用中的音频语音分离，该方法通过区域方式将具有细粒度空间属性的自适应信号从底噪中分离出来进行训练，并表现出远超通用监督学习的性能。

Jul, 2022

时域音视频语音分离

本文介绍了一种新的时间域音视图架构，用于从单声道混合物中提取目标说话人，实验结果表明，相比于仅有声音的 TasNet 和频域音 - 视网络，我们的方法在两个和三个说话人的情况下分别可以提供 3dB + 和 4dB + 的信噪比改进。

Apr, 2019

TasNet: 用于实时单声道语音分离的时域音频分离网络

本文针对多说话人环境下的鲁棒语音处理，提出了使用时域音频分离网络 (TasNet) 直接对信号进行建模，通过编码器输出估计源掩码、并经过解码器进行合成的方法，该方法适用于实时应用，并能在低功耗情况下完成语音分离任务，是当前最先进的语音分离算法之一。

Nov, 2017

多模态多通道目标语音分离

通过利用目标说话者的空间位置、声音特征和唇部运动，本研究提出了一种通用的多模态框架来实现目标语音分离，并探讨了多模态联合建模的融合方法。通过实验验证，该方法在真实情况下的强鲁棒性表现显著优于单模和双模语音分离方法，同时可支持实时处理。

Mar, 2020

会议在线发言人分化的语音分离指导

我们介绍了一种新的基于语音分离引导的在线发言人分化方案，适用于持续变动的说话人数量的长时间会议录音。

Jan, 2024

端到端的双耳语音合成

本文提出了一种端到端的双耳语音合成系统，该系统将低比特率音频编解码器与强大的双耳解码器相结合，能够准确地进行语音双耳化，同时忠实地重构环境因素，如环境噪声或混响。网络采用改进的矢量量化变分自动编码器，通过多个仔细设计的目标进行训练，包括对抗损失。我们使用客观指标和感知研究，对内部双耳数据集进行了评估。结果表明，所提出的方法比以前的方法更接近基准数据。特别是，我们展示了对抗损失在捕捉创建真实听觉场景所需的环境效应方面的能力。

Jul, 2022

实时低延迟音乐源分离使用混合的谱图 - TasNet

通过借鉴 Hybrid Demucs 架构，本文提出了混合谱图时域音频分离网络（HS-TasNet），结合了频谱和波形域的优势，为实时低延迟的音乐应用展现了高效分离的潜力。

Feb, 2024