层次交叉感知的深度融合双耳声音生成

CVPRAug, 2021

层次交叉感知的深度融合双耳声音生成

Depth Infused Binaural Audio Generation using Hierarchical Cross-Modal Attention

Kranti Kumar Parida, Siddharth Srivastava, Neeraj Matiyali, Gaurav Sharma

TL;DR该研究旨在提高在手持设备上录制立体声音频的难度，通过借助深度图像等特征来实现对距离信息的编码，从而改善其在 AR/VR 等环境下的表现。

Abstract

binaural audio gives the listener the feeling of being in the recording place and enhances the immersive experience if coupled with ar/vr. But the problem with →

binaural audio ar/vr mono audio distance encoding encoder-decoder architecture

发现论文，激发创造

2.5D 视觉声音

该研究提出了一种利用视频将常见的单通道音频转换为双耳音频的深度卷积神经网络方法，称为 2.5D 视听效果，可以产生具有空间感的音频，同时有助于音频 - 视觉源分离。

Dec, 2018

无需双耳音频的视觉辅助双耳音频生成

本文提出了一种无需立体声录音的有效 PseudoBinaural 管道，通过手动放置声音源位置的相应视觉线索形成假的视觉立体对来训练模型，同时利用头部相关冲击响应（HRIR）对空间位置和接收到的立体声音频之间的关系进行建模，实现了在实际场景下的准确音频生成，并能在有监督设置下进一步改善性能。

Apr, 2021

利用部分监督的视听一致性生成空间音频

该研究提出了一种音频空间化框架，利用音频和视觉组件之间的关系将单通道视频转换为双耳音频，通过在音频和视觉模态中保留左右一致性的学习策略来实现自监督学习，验证结果表明该框架在半监督和全监督方案中具有很好的效果。

May, 2021

双耳声音的语义物体预测和空间声音超分辨率

本文介绍了一种基于双耳声音的声音制造对象的语义标记方法，利用跨模态蒸馏框架让视觉和听觉系统相互学习，形成多任务训练网络等手段提高系统的性能。

Mar, 2020

神经网络实现的 Ambisonic 信号的双耳渲染

通过构建 paired ambisonic-binaural 数据集，并提出了一种基于深度学习的框架，实现了 binaural rendering of ambisonic signals 的自动化，相比传统方法性能更优，可应用于虚拟现实和沉浸式媒体。

Nov, 2022

跨模态生成模型视觉引导下的双耳立体声生成

通过使用视觉引导生成对抗方法，本论文第一次提出了从单声道音频生成双元立体音频的方法，并且引入了一个测量音频空间感知的度量标准，通过定量和定向的方式评估音频的空间感知，在 2 个数据集和 5 个评价指标上实现了最先进的性能。定性实验和用户研究证明了该方法生成的空间逼真的立体音频。

Nov, 2023

端到端的双耳语音合成

本文提出了一种端到端的双耳语音合成系统，该系统将低比特率音频编解码器与强大的双耳解码器相结合，能够准确地进行语音双耳化，同时忠实地重构环境因素，如环境噪声或混响。网络采用改进的矢量量化变分自动编码器，通过多个仔细设计的目标进行训练，包括对抗损失。我们使用客观指标和感知研究，对内部双耳数据集进行了评估。结果表明，所提出的方法比以前的方法更接近基准数据。特别是，我们展示了对抗损失在捕捉创建真实听觉场景所需的环境效应方面的能力。

Jul, 2022

实时双耳语音分离并保留空间提示

本文提出了一种基于 TasNet 的多输入多输出的语音分离算法，该算法能够保留声源的空间信息，实现实时修改声学场景，并在不同声学场景中显著改善分离性能并保持位置感知。

Feb, 2020

Sep-Stereo: 基于可视化引导的立体声音频生成方法，通过关联源分离

该研究提出了一种统一的框架，将立体声音频生成和源分离相结合，通过使用可用的单声道数据来提高立体声音频生成的结果。

Jul, 2020

语义听觉：利用双耳听觉装置编程声音场景

语义听觉技术使得可穿戴设备能够实时聚焦或忽略具体声音，同时保留空间线索，通过神经网络实现在干扰声和背景噪音中提取双耳目标声音，并设计一种训练方法使系统能够推广到实际环境中，实验结果表明我们的系统能够处理 20 种声音类别，并在智能手机上以 6.56 毫秒的运行时间提供双耳输出，对于未知的室内和室外场景都能提取目标音频并保留空间线索。

Nov, 2023