神经网络实现的 Ambisonic 信号的双耳渲染

Nov, 2022

神经网络实现的 Ambisonic 信号的双耳渲染

Binaural Rendering of Ambisonic Signals by Neural Networks

Yin Zhu, Qiuqiang Kong, Junjie Shi, Shilei Liu, Xuzhou Ye...

TL;DR通过构建 paired ambisonic-binaural 数据集，并提出了一种基于深度学习的框架，实现了 binaural rendering of ambisonic signals 的自动化，相比传统方法性能更优，可应用于虚拟现实和沉浸式媒体。

Abstract

binaural rendering of ambisonic signals is of broad interest to virtual reality and immersive media. Conventional methods often require manually measured Head-Related Transfer Functions (→

binaural rendering ambisonic signals deep learning hrtfs virtual reality

发现论文，激发创造

端到端的双耳语音合成

本文提出了一种端到端的双耳语音合成系统，该系统将低比特率音频编解码器与强大的双耳解码器相结合，能够准确地进行语音双耳化，同时忠实地重构环境因素，如环境噪声或混响。网络采用改进的矢量量化变分自动编码器，通过多个仔细设计的目标进行训练，包括对抗损失。我们使用客观指标和感知研究，对内部双耳数据集进行了评估。结果表明，所提出的方法比以前的方法更接近基准数据。特别是，我们展示了对抗损失在捕捉创建真实听觉场景所需的环境效应方面的能力。

Jul, 2022

从原始波形开始的端到端双耳声音定位

本研究提出了一种新方法，采用卷积神经网络从声波波形中直接估计声源的方位，利用一组特定的卷积核搜索局部化线索，我们的实验表明该方法能够在多种情境下提高声音定位精度。

Apr, 2019

使用球形神经过程元学习器进行 HRTF 插值

使用便利的输入方式（如人体测量或耳廓照片）估计主体的头部相关转移函数（HRTF）的个体化方法存在误差，该研究提出了一种卷积条件神经过程元学习器，专门用于 HRTF 误差插值，并在时间对齐的频谱插值场景中实现了高达 3 dB 的相对误差降低，大约减少了一半的数据点数量达到相似的准确性。此外，该模型提供了良好校准的不确定性估计，可应用于最小化获取足够的 HRTF 数据点以满足所需个体化准确性水平的决策问题。

Oct, 2023

层次交叉感知的深度融合双耳声音生成

该研究旨在提高在手持设备上录制立体声音频的难度，通过借助深度图像等特征来实现对距离信息的编码，从而改善其在 AR/VR 等环境下的表现。

Aug, 2021

双耳角度分离网络

我们提出了一个神经网络模型，可以使用两个麦克风在不同的角度区域将目标语音源与干扰源分离。该模型使用模拟的室内脉冲响应进行训练，无需收集真实的脉冲响应。通过依赖特定的角度区域和多个房间模拟，该模型利用一致的到达时间差（TDOA）线索，或者我们称之为延迟对比，将目标和干扰源分离，同时在各种混响环境中保持稳健性。我们展示了该模型不仅适用于具有稍微不同麦克风几何结构的商用设备，而且优于我们之前使用同一设备上的一个额外麦克风的工作。该模型在设备上实时运行，适用于低延迟的流媒体应用，如电话和视频会议。

Jan, 2024

神经傅里叶平移在双耳朵渲染中的应用

本文提出了一种基于神经傅里叶移位的新型神经网络结构，名为 NFS，该结构能够在傅里叶空间中实现双耳语音合成，其通过预测早期反射的延迟和尺度来实现。该方法在内存和计算成本上都非常有效，且能够独立于源领域进行操作，实验结果表明其在性能和效率上优于以往的类似研究。

Nov, 2022

无需双耳音频的视觉辅助双耳音频生成

本文提出了一种无需立体声录音的有效 PseudoBinaural 管道，通过手动放置声音源位置的相应视觉线索形成假的视觉立体对来训练模型，同时利用头部相关冲击响应（HRIR）对空间位置和接收到的立体声音频之间的关系进行建模，实现了在实际场景下的准确音频生成，并能在有监督设置下进一步改善性能。

Apr, 2021

2.5D 视觉声音

该研究提出了一种利用视频将常见的单通道音频转换为双耳音频的深度卷积神经网络方法，称为 2.5D 视听效果，可以产生具有空间感的音频，同时有助于音频 - 视觉源分离。

Dec, 2018

实时双耳语音分离并保留空间提示

本文提出了一种基于 TasNet 的多输入多输出的语音分离算法，该算法能够保留声源的空间信息，实现实时修改声学场景，并在不同声学场景中显著改善分离性能并保持位置感知。

Feb, 2020

双耳声音的语义物体预测和空间声音超分辨率

本文介绍了一种基于双耳声音的声音制造对象的语义标记方法，利用跨模态蒸馏框架让视觉和听觉系统相互学习，形成多任务训练网络等手段提高系统的性能。

Mar, 2020