BatVision: 学习使用两只耳朵看到三维空间布局

Dec, 2019

BatVision: 学习使用两只耳朵看到三维空间布局

BatVision: Learning to See 3D Spatial Layout with Two Ears

Jesper Haahr Christensen, Sascha Hornauer, Stella Yu

TL;DR该研究提出了一种低成本的机器视觉系统（BatVision），通过仿照蝙蝠的回声定位机制，利用声音来感知物体的三维空间布局，能够在低照度或无光照条件下用于机器人导航和机器视觉。

Abstract

Many species have evolved advanced non-visual perception while artificial systems fall behind. Radar and ultrasound complement camera-based vision but they are often too costly and complex to set up for very limited information gain. In nature, sound is used effectively by bats, dolphins, whales, and humans for navigation and communication. However, it is un

batvision echolocation machine perception sound to vision robot navigation

发现论文，激发创造

VisualEchoes: 通过回声定位进行空间图像表征学习

本研究探讨了生物声波定位能力中所包含的空间线索，并提出了一种基于交互学习的特征表示框架，改善图像深度估计、表面法线估计和视觉导航等多项需要空间推理的视觉任务，并展示所学习图像特征的应用效果比已有预训练更好。该研究打开了针对实体化代理的特征学习新途径，其中监督可以通过与物理世界的交互获得。

May, 2020

BAT：利用大型语言模型学习关于空间声音的推理

通过结合双耳声音场景分析模型的空间声音知觉能力和大型语言模型的自然语言推理能力，我们提出了 BAT，以模拟人类的空间声音推理能力。BAT 在各个方面进行了训练，并具有优越的空间声音认知和推理能力，展示了大型语言模型在解读和理解复杂的空间音频环境中的巨大潜力。

Feb, 2024

声音空间： 3D 环境下的音视导航

本研究介绍了一种复杂的，声音和视觉逼真的三维环境中的音频视觉导航方法，使用多模态深度强化学习方法训练导航策略并提出了新的数据集 SoundSpaces，在现实环境中插入任意声源。研究结果表明，在三维空间中，音频对于具身视觉导航有很大的帮助，为音频视觉感知的体验机器人研究奠定了基础。

Dec, 2019

双耳声音的语义物体预测和空间声音超分辨率

本文介绍了一种基于双耳声音的声音制造对象的语义标记方法，利用跨模态蒸馏框架让视觉和听觉系统相互学习，形成多任务训练网络等手段提高系统的性能。

Mar, 2020

超越图像：使用回声改善深度预测

提出一种基于端到端深度学习的多模式融合技术，通过利用 RGB 图像、双耳回响和场景中不同物体的材料属性来改进音视频输入的场景深度估计，实验证明该方法在 Replica 数据集上比最先进的音视频深度预测方法提高了 28% 的 RMSE，并在 Matterport3D 上表现出了与竞争者相当的性能。

Mar, 2021

语义听觉：利用双耳听觉装置编程声音场景

语义听觉技术使得可穿戴设备能够实时聚焦或忽略具体声音，同时保留空间线索，通过神经网络实现在干扰声和背景噪音中提取双耳目标声音，并设计一种训练方法使系统能够推广到实际环境中，实验结果表明我们的系统能够处理 20 种声音类别，并在智能手机上以 6.56 毫秒的运行时间提供双耳输出，对于未知的室内和室外场景都能提取目标音频并保留空间线索。

Nov, 2023

SEE-2-SOUND：零射击空间环境到空间音效

通过 SEE-2-SOUND 引入的零样本方法，将多模式内容生成、神经生成模型和空间音频相结合，可以为高质量视频、图像和互联网动态图像生成空间音频，实现沉浸式体验。

Jun, 2024

在移动声音的复杂未被地图化的环境中进行音频 - 视觉导航

本文提出了动态视听导航基准，介绍了融合空间特征的视听信息的体系结构，并通过强化学习方法学习了复杂环境下的稳健导航策略，研究表明，该方法在捕捉移动声源、未知声源和嘈杂环境方面具有显著的性能优势。

Nov, 2021

EchoVest: 实时声音分类与通过经皮电神经刺激表达的深度感知

我们开发了一种新的辅助设备 EchoVest，通过利用经皮电神经刺激 (TENS) 基于声源的振动传输到用户身体上，为盲人 / 聋人提供直观的环境感知，同时实现声音定位、声音分类、降噪和深度感知等多种功能，并在计算准确性和成本方面超越了基于 CNN 的机器学习模型。

Jul, 2023

利用立体声音进行自监督的移动车辆跟踪

该论文提出了一种利用未标记的音频 - 视觉数据进行物体定位的系统，使用自监督方法来实现跨模态的语音定位，其在声学车辆跟踪数据集上表现卓越并可用于光照条件不佳的车辆视觉定位。

Oct, 2019