神经网络实现的 Ambisonic 信号的双耳渲染
本文提出了一种端到端的双耳语音合成系统,该系统将低比特率音频编解码器与强大的双耳解码器相结合,能够准确地进行语音双耳化,同时忠实地重构环境因素,如环境噪声或混响。网络采用改进的矢量量化变分自动编码器,通过多个仔细设计的目标进行训练,包括对抗损失。我们使用客观指标和感知研究,对内部双耳数据集进行了评估。结果表明,所提出的方法比以前的方法更接近基准数据。特别是,我们展示了对抗损失在捕捉创建真实听觉场景所需的环境效应方面的能力。
Jul, 2022
本研究提出了一种新方法,采用卷积神经网络从声波波形中直接估计声源的方位,利用一组特定的卷积核搜索局部化线索,我们的实验表明该方法能够在多种情境下提高声音定位精度。
Apr, 2019
使用便利的输入方式(如人体测量或耳廓照片)估计主体的头部相关转移函数(HRTF)的个体化方法存在误差,该研究提出了一种卷积条件神经过程元学习器,专门用于 HRTF 误差插值,并在时间对齐的频谱插值场景中实现了高达 3 dB 的相对误差降低,大约减少了一半的数据点数量达到相似的准确性。此外,该模型提供了良好校准的不确定性估计,可应用于最小化获取足够的 HRTF 数据点以满足所需个体化准确性水平的决策问题。
Oct, 2023
我们提出了一个神经网络模型,可以使用两个麦克风在不同的角度区域将目标语音源与干扰源分离。该模型使用模拟的室内脉冲响应进行训练,无需收集真实的脉冲响应。通过依赖特定的角度区域和多个房间模拟,该模型利用一致的到达时间差(TDOA)线索,或者我们称之为延迟对比,将目标和干扰源分离,同时在各种混响环境中保持稳健性。我们展示了该模型不仅适用于具有稍微不同麦克风几何结构的商用设备,而且优于我们之前使用同一设备上的一个额外麦克风的工作。该模型在设备上实时运行,适用于低延迟的流媒体应用,如电话和视频会议。
Jan, 2024
本文提出了一种基于神经傅里叶移位的新型神经网络结构,名为 NFS,该结构能够在傅里叶空间中实现双耳语音合成,其通过预测早期反射的延迟和尺度来实现。该方法在内存和计算成本上都非常有效,且能够独立于源领域进行操作,实验结果表明其在性能和效率上优于以往的类似研究。
Nov, 2022
本文提出了一种无需立体声录音的有效 PseudoBinaural 管道,通过手动放置声音源位置的相应视觉线索形成假的视觉立体对来训练模型,同时利用头部相关冲击响应(HRIR)对空间位置和接收到的立体声音频之间的关系进行建模,实现了在实际场景下的准确音频生成,并能在有监督设置下进一步改善性能。
Apr, 2021
该研究提出了一种利用视频将常见的单通道音频转换为双耳音频的深度卷积神经网络方法,称为 2.5D 视听效果,可以产生具有空间感的音频,同时有助于音频 - 视觉源分离。
Dec, 2018
本文提出了一种基于 TasNet 的多输入多输出的语音分离算法,该算法能够保留声源的空间信息,实现实时修改声学场景,并在不同声学场景中显著改善分离性能并保持位置感知。
Feb, 2020