语义听觉：利用双耳听觉装置编程声音场景

Nov, 2023

语义听觉：利用双耳听觉装置编程声音场景

Semantic Hearing: Programming Acoustic Scenes with Binaural Hearables

Bandhav Veluri, Malek Itani, Justin Chan, Takuya Yoshioka, Shyamnath Gollakota

TL;DR语义听觉技术使得可穿戴设备能够实时聚焦或忽略具体声音，同时保留空间线索，通过神经网络实现在干扰声和背景噪音中提取双耳目标声音，并设计一种训练方法使系统能够推广到实际环境中，实验结果表明我们的系统能够处理 20 种声音类别，并在智能手机上以 6.56 毫秒的运行时间提供双耳输出，对于未知的室内和室外场景都能提取目标音频并保留空间线索。

Abstract

Imagine being able to listen to the birds chirping in a park without hearing the chatter from other hikers, or being able to block out traffic noise on a busy street while still being able to hear emergency sirens and car honks. We introduce semantic hearing, a novel capability for

semantic hearing hearable devices neural network binaural target sound extraction spatial cues

发现论文，激发创造

双耳声音的语义物体预测和空间声音超分辨率

本文介绍了一种基于双耳声音的声音制造对象的语义标记方法，利用跨模态蒸馏框架让视觉和听觉系统相互学习，形成多任务训练网络等手段提高系统的性能。

Mar, 2020

一着眼便聆听：针对带噪示例的目标语音听觉

这篇论文介绍了一种新颖的智能可听系统，通过智能感知，使目标语音输入忽略所有干扰的语音和噪音。该系统通过简洁便捷的注册接口，实现使用少于 5 秒的嘈杂音频进行注册，然后在存在干扰的语音和噪音中进行后续语音提取，且不影响性能，方便易用。这项研究朝着借助人工智能增强人类听觉感知迈出了重要的一步。

May, 2024

端到端的双耳语音合成

本文提出了一种端到端的双耳语音合成系统，该系统将低比特率音频编解码器与强大的双耳解码器相结合，能够准确地进行语音双耳化，同时忠实地重构环境因素，如环境噪声或混响。网络采用改进的矢量量化变分自动编码器，通过多个仔细设计的目标进行训练，包括对抗损失。我们使用客观指标和感知研究，对内部双耳数据集进行了评估。结果表明，所提出的方法比以前的方法更接近基准数据。特别是，我们展示了对抗损失在捕捉创建真实听觉场景所需的环境效应方面的能力。

Jul, 2022

语义音视频导航

介绍了语义音频可视化导航的概念，提出了基于 Transformer 的模型用于处理语义 AudioGoal 任务，拥有持久的多模态记忆，通过学习语义、声音和视觉提示的关联性，可实现在声音事件停止后，仍能到达目标的导航能力。

Dec, 2020

实时双耳语音分离并保留空间提示

本文提出了一种基于 TasNet 的多输入多输出的语音分离算法，该算法能够保留声源的空间信息，实现实时修改声学场景，并在不同声学场景中显著改善分离性能并保持位置感知。

Feb, 2020

神经网络实现的 Ambisonic 信号的双耳渲染

通过构建 paired ambisonic-binaural 数据集，并提出了一种基于深度学习的框架，实现了 binaural rendering of ambisonic signals 的自动化，相比传统方法性能更优，可应用于虚拟现实和沉浸式媒体。

Nov, 2022

无需双耳音频的视觉辅助双耳音频生成

本文提出了一种无需立体声录音的有效 PseudoBinaural 管道，通过手动放置声音源位置的相应视觉线索形成假的视觉立体对来训练模型，同时利用头部相关冲击响应（HRIR）对空间位置和接收到的立体声音频之间的关系进行建模，实现了在实际场景下的准确音频生成，并能在有监督设置下进一步改善性能。

Apr, 2021

2.5D 视觉声音

该研究提出了一种利用视频将常见的单通道音频转换为双耳音频的深度卷积神经网络方法，称为 2.5D 视听效果，可以产生具有空间感的音频，同时有助于音频 - 视觉源分离。

Dec, 2018

层次交叉感知的深度融合双耳声音生成

该研究旨在提高在手持设备上录制立体声音频的难度，通过借助深度图像等特征来实现对距离信息的编码，从而改善其在 AR/VR 等环境下的表现。

Aug, 2021

学习通过空间区域分离音频

本文提出一种两阶段的自我监督框架，旨在实现耳机和助听器等双耳应用中的音频语音分离，该方法通过区域方式将具有细粒度空间属性的自适应信号从底噪中分离出来进行训练，并表现出远超通用监督学习的性能。

Jul, 2022