实时双耳语音分离并保留空间提示
我们提出了一个神经网络模型,可以使用两个麦克风在不同的角度区域将目标语音源与干扰源分离。该模型使用模拟的室内脉冲响应进行训练,无需收集真实的脉冲响应。通过依赖特定的角度区域和多个房间模拟,该模型利用一致的到达时间差(TDOA)线索,或者我们称之为延迟对比,将目标和干扰源分离,同时在各种混响环境中保持稳健性。我们展示了该模型不仅适用于具有稍微不同麦克风几何结构的商用设备,而且优于我们之前使用同一设备上的一个额外麦克风的工作。该模型在设备上实时运行,适用于低延迟的流媒体应用,如电话和视频会议。
Jan, 2024
本文提出了一种时空神经滤波器,通过方向信息的辅助作用,从具有混响的多人语音混合物中直接估计目标语音波形,以提高目标和干扰源之间的时域、频域和空域可辨识度,并设计了一种全卷积自动编码器框架用于快速和端到端的语音分离处理。
Jan, 2020
本研究使用深度学习技术改进双耳扬声器分离系统,通过引入自我关注机制和密集连接,保留相互耳提示信息,得到比最近的分离方法更好的性能,且提高了声音定位准确度。
Sep, 2020
本文提出一种两阶段的自我监督框架,旨在实现耳机和助听器等双耳应用中的音频语音分离,该方法通过区域方式将具有细粒度空间属性的自适应信号从底噪中分离出来进行训练,并表现出远超通用监督学习的性能。
Jul, 2022
本文介绍了一种新的时间域音视图架构,用于从单声道混合物中提取目标说话人,实验结果表明,相比于仅有声音的 TasNet 和频域音 - 视网络,我们的方法在两个和三个说话人的情况下分别可以提供 3dB + 和 4dB + 的信噪比改进。
Apr, 2019
本文针对多说话人环境下的鲁棒语音处理,提出了使用时域音频分离网络 (TasNet) 直接对信号进行建模,通过编码器输出估计源掩码、并经过解码器进行合成的方法,该方法适用于实时应用,并能在低功耗情况下完成语音分离任务,是当前最先进的语音分离算法之一。
Nov, 2017
通过利用目标说话者的空间位置、声音特征和唇部运动,本研究提出了一种通用的多模态框架来实现目标语音分离,并探讨了多模态联合建模的融合方法。通过实验验证,该方法在真实情况下的强鲁棒性表现显著优于单模和双模语音分离方法,同时可支持实时处理。
Mar, 2020
本文提出了一种端到端的双耳语音合成系统,该系统将低比特率音频编解码器与强大的双耳解码器相结合,能够准确地进行语音双耳化,同时忠实地重构环境因素,如环境噪声或混响。网络采用改进的矢量量化变分自动编码器,通过多个仔细设计的目标进行训练,包括对抗损失。我们使用客观指标和感知研究,对内部双耳数据集进行了评估。结果表明,所提出的方法比以前的方法更接近基准数据。特别是,我们展示了对抗损失在捕捉创建真实听觉场景所需的环境效应方面的能力。
Jul, 2022
通过借鉴 Hybrid Demucs 架构,本文提出了混合谱图时域音频分离网络(HS-TasNet),结合了频谱和波形域的优势,为实时低延迟的音乐应用展现了高效分离的潜力。
Feb, 2024