层次交叉感知的深度融合双耳声音生成
该研究提出了一种利用视频将常见的单通道音频转换为双耳音频的深度卷积神经网络方法,称为 2.5D 视听效果,可以产生具有空间感的音频,同时有助于音频 - 视觉源分离。
Dec, 2018
本文提出了一种无需立体声录音的有效 PseudoBinaural 管道,通过手动放置声音源位置的相应视觉线索形成假的视觉立体对来训练模型,同时利用头部相关冲击响应(HRIR)对空间位置和接收到的立体声音频之间的关系进行建模,实现了在实际场景下的准确音频生成,并能在有监督设置下进一步改善性能。
Apr, 2021
该研究提出了一种音频空间化框架,利用音频和视觉组件之间的关系将单通道视频转换为双耳音频,通过在音频和视觉模态中保留左右一致性的学习策略来实现自监督学习,验证结果表明该框架在半监督和全监督方案中具有很好的效果。
May, 2021
通过构建 paired ambisonic-binaural 数据集,并提出了一种基于深度学习的框架,实现了 binaural rendering of ambisonic signals 的自动化,相比传统方法性能更优,可应用于虚拟现实和沉浸式媒体。
Nov, 2022
通过使用视觉引导生成对抗方法,本论文第一次提出了从单声道音频生成双元立体音频的方法,并且引入了一个测量音频空间感知的度量标准,通过定量和定向的方式评估音频的空间感知,在 2 个数据集和 5 个评价指标上实现了最先进的性能。定性实验和用户研究证明了该方法生成的空间逼真的立体音频。
Nov, 2023
本文提出了一种端到端的双耳语音合成系统,该系统将低比特率音频编解码器与强大的双耳解码器相结合,能够准确地进行语音双耳化,同时忠实地重构环境因素,如环境噪声或混响。网络采用改进的矢量量化变分自动编码器,通过多个仔细设计的目标进行训练,包括对抗损失。我们使用客观指标和感知研究,对内部双耳数据集进行了评估。结果表明,所提出的方法比以前的方法更接近基准数据。特别是,我们展示了对抗损失在捕捉创建真实听觉场景所需的环境效应方面的能力。
Jul, 2022
本文提出了一种基于 TasNet 的多输入多输出的语音分离算法,该算法能够保留声源的空间信息,实现实时修改声学场景,并在不同声学场景中显著改善分离性能并保持位置感知。
Feb, 2020
该研究提出了一种统一的框架,将立体声音频生成和源分离相结合,通过使用可用的单声道数据来提高立体声音频生成的结果。
Jul, 2020
语义听觉技术使得可穿戴设备能够实时聚焦或忽略具体声音,同时保留空间线索,通过神经网络实现在干扰声和背景噪音中提取双耳目标声音,并设计一种训练方法使系统能够推广到实际环境中,实验结果表明我们的系统能够处理 20 种声音类别,并在智能手机上以 6.56 毫秒的运行时间提供双耳输出,对于未知的室内和室外场景都能提取目标音频并保留空间线索。
Nov, 2023