通过对齐的跨模态蒸馏实现密集的二维 - 三维室内声音预测

ICCVSep, 2023

通过对齐的跨模态蒸馏实现密集的二维 - 三维室内声音预测

Dense 2D-3D Indoor Prediction with Sound via Aligned Cross-Modal Distillation

Heeseung Yun, Joonil Na, Gunhee Kim

TL;DR我们提出一种通过匹配实现视听知识传递的空间对齐引导模型 (distillation framework)，能够在 2D 和 3D 中使用声音进行密集的室内预测。该模型通过将音频特征与视觉连贯的可学习空间嵌入进行整合，在学生模型的多个层次中解决不一致问题。我们的方法不依赖于特定的输入表示方式，可以灵活处理不同形状或维度的输入数据，而不会影响性能表现。通过新的基准数据集 DAPS（Dense Auditory Prediction of Surroundings），我们首次在 2D 和 3D 中利用音频观测数据解决了全方位密集室内预测问题，包括基于声音的深度估计、语义分割和具有挑战性的 3D 场景重构，在各种指标和骨干架构上始终取得了最先进的性能。

Abstract

sound can convey significant information for spatial reasoning in our daily lives. To endow deep networks with such ability, we address the challenge of dense →

sound spatial reasoning cross-modal knowledge distillation indoor prediction audio observations

发现论文，激发创造

双耳声音的语义物体预测和空间声音超分辨率

本文介绍了一种基于双耳声音的声音制造对象的语义标记方法，利用跨模态蒸馏框架让视觉和听觉系统相互学习，形成多任务训练网络等手段提高系统的性能。

Mar, 2020

自我监督多模态知识蒸馏：利用声音进行多物体检测与跟踪

提出了一种新颖的自监督 MM-DistillNet 框架，利用多个教师的多样性模态（包括 RGB、深度和热成像）来同时利用互补线索并将知识蒸馏到单一的音频学生网络中，而且还引入了一种新的自监督假设任务来使我们不依赖于人工标注。该方法在探测物体方面具有优越性能，即使在移动的情况下也能使用声音来检测多个物体。

Mar, 2021

声音空间： 3D 环境下的音视导航

本研究介绍了一种复杂的，声音和视觉逼真的三维环境中的音频视觉导航方法，使用多模态深度强化学习方法训练导航策略并提出了新的数据集 SoundSpaces，在现实环境中插入任意声源。研究结果表明，在三维空间中，音频对于具身视觉导航有很大的帮助，为音频视觉感知的体验机器人研究奠定了基础。

Dec, 2019

SEE-2-SOUND：零射击空间环境到空间音效

通过 SEE-2-SOUND 引入的零样本方法，将多模式内容生成、神经生成模型和空间音频相结合，可以为高质量视频、图像和互联网动态图像生成空间音频，实现沉浸式体验。

Jun, 2024

使用声学图像的音视频模型蒸馏

本研究旨在研究如何从视觉数据和新型的音频数据模式 —— 声学图像中学习丰富和强大的音频分类特征表示，通过利用新的多模态标记行动识别数据集，并针对性地训练音频深度学习模型，从视觉和声学图像方面实现知识蒸馏，以获得比单麦克风声音数据训练模型更强大和更具有一般化能力的特征表示。

Apr, 2019

音频视觉空间融合与递归注意力的稳健声源定位

提出了一种音频 - 视觉空间整合网络，利用音频和视觉模态的空间线索来模仿人类在检测制造声音的对象时的行为，并引入了递归注意网络来递归地专注于对象，从而形成更准确的注意区域，通过利用音频 - 视觉模态的空间线索和递归地关注对象，我们的方法可以实现更稳健的声源定位，全面的实验结果表明了该方法优于现有方法。

Aug, 2023

通过概率空间建模的自监督神经音频视觉声源定位

该论文介绍了一种利用 360 度图像和多通道音频信号的自监督训练方法来训练深度神经网络以区分多个声源对象的系统，旨在解决自主机器人理解周围环境的问题。

Jul, 2020

通过组合对比学习提炼视听知识

本文介绍了一种新的跨模态知识迁移方法，使用组合对比学习来学习复合嵌入，通过学习多模态知识来改善视频表示学习表现。在三个视频数据集上进行的实验表明，该方法显著优于现有的知识蒸馏方法。

Apr, 2021

室内场景解析的三维到二维提炼

该论文提出了一种新的室内场景语义分割方法，使用一个新的 3D-to-2D 分解框架，可以从大规模的 3D 数据中提取 3D 特征，以增强从 RGB 图像中提取的 2D 特征，并通过对其进行标准化和语义相关的对抗性训练对其进行改进。

Apr, 2021

多音源二维定位学习

本文提出了基于深度学习的多声源定位算法，使用多个麦克风阵列找到封闭环境中多个声源的二维笛卡尔坐标，通过编码 - 解码结构和两个改进措施实现任务，并提出了两种新的定位表示方法，学习了新指标以实现分辨率基础上的多源关联和对比不同方法的评估。作者对合成和真实数据进行了测试，结果表明本方法改进了这一问题的基线方法。

Dec, 2020