BatVision: 学习使用两只耳朵看到三维空间布局
本研究探讨了生物声波定位能力中所包含的空间线索,并提出了一种基于交互学习的特征表示框架,改善图像深度估计、表面法线估计和视觉导航等多项需要空间推理的视觉任务,并展示所学习图像特征的应用效果比已有预训练更好。该研究打开了针对实体化代理的特征学习新途径,其中监督可以通过与物理世界的交互获得。
May, 2020
通过结合双耳声音场景分析模型的空间声音知觉能力和大型语言模型的自然语言推理能力,我们提出了 BAT,以模拟人类的空间声音推理能力。BAT 在各个方面进行了训练,并具有优越的空间声音认知和推理能力,展示了大型语言模型在解读和理解复杂的空间音频环境中的巨大潜力。
Feb, 2024
本研究介绍了一种复杂的,声音和视觉逼真的三维环境中的音频视觉导航方法,使用多模态深度强化学习方法训练导航策略并提出了新的数据集 SoundSpaces,在现实环境中插入任意声源。研究结果表明,在三维空间中,音频对于具身视觉导航有很大的帮助,为音频视觉感知的体验机器人研究奠定了基础。
Dec, 2019
提出一种基于端到端深度学习的多模式融合技术,通过利用 RGB 图像、双耳回响和场景中不同物体的材料属性来改进音视频输入的场景深度估计,实验证明该方法在 Replica 数据集上比最先进的音视频深度预测方法提高了 28% 的 RMSE,并在 Matterport3D 上表现出了与竞争者相当的性能。
Mar, 2021
语义听觉技术使得可穿戴设备能够实时聚焦或忽略具体声音,同时保留空间线索,通过神经网络实现在干扰声和背景噪音中提取双耳目标声音,并设计一种训练方法使系统能够推广到实际环境中,实验结果表明我们的系统能够处理 20 种声音类别,并在智能手机上以 6.56 毫秒的运行时间提供双耳输出,对于未知的室内和室外场景都能提取目标音频并保留空间线索。
Nov, 2023
通过 SEE-2-SOUND 引入的零样本方法,将多模式内容生成、神经生成模型和空间音频相结合,可以为高质量视频、图像和互联网动态图像生成空间音频,实现沉浸式体验。
Jun, 2024
本文提出了动态视听导航基准,介绍了融合空间特征的视听信息的体系结构,并通过强化学习方法学习了复杂环境下的稳健导航策略,研究表明,该方法在捕捉移动声源、未知声源和嘈杂环境方面具有显著的性能优势。
Nov, 2021
我们开发了一种新的辅助设备 EchoVest,通过利用经皮电神经刺激 (TENS) 基于声源的振动传输到用户身体上,为盲人 / 聋人提供直观的环境感知,同时实现声音定位、声音分类、降噪和深度感知等多种功能,并在计算准确性和成本方面超越了基于 CNN 的机器学习模型。
Jul, 2023
该论文提出了一种利用未标记的音频 - 视觉数据进行物体定位的系统,使用自监督方法来实现跨模态的语音定位,其在声学车辆跟踪数据集上表现卓越并可用于光照条件不佳的车辆视觉定位。
Oct, 2019