MAGIC: 地图指导的少样本音频 - 视觉声学建模

May, 2024

MAGIC: 地图指导的少样本音频 - 视觉声学建模

MAGIC: Map-Guided Few-Shot Audio-Visual Acoustics Modeling

Diwei Huang, Kunyang Lin, Peihao Chen, Qing Du, Mingkui Tan

TL;DR通过构造与声音相关的视觉语义特征图和地图，我们提出了一个以地图为导向的框架，通过少量的观测数据准确地建模环境声学。我们通过扩散特征和预测观测语义地图生成场景语义地图，然后通过基于 Transformer 的编码器 - 解码器与回声编码交互，预测任意发言者 - 听众查询对的房间冲激响应。大量在 Matterport3D 和 Replica 数据集上进行的实验验证了我们框架的有效性。

Abstract

few-shot audio-visual acoustics modeling seeks to synthesize the room impulse response in arbitrary locations with few-shot observations. To sufficiently exploit the provided few-shot data for accurate acoustic modeling, we present a *map-guided* framework by constructing acoustic-rela

few-shot audio-visual acoustics modeling map-guided framework observation semantic map scene semantic map transformer-based encoder-decoder

发现论文，激发创造

Chat2Map：多自我对话中高效的场景映射

利用多个自我视角的、来自多方的对话视频，结合深度强化学习的方法，高效地构建出未知 3D 环境的地图，达到了出色的性价比，优于以往最先进的方法。

Jan, 2023

语义音视频导航

介绍了语义音频可视化导航的概念，提出了基于 Transformer 的模型用于处理语义 AudioGoal 任务，拥有持久的多模态记忆，通过学习语义、声音和视觉提示的关联性，可实现在声音事件停止后，仍能到达目标的导航能力。

Dec, 2020

自适应交叉模态少样本学习

本文提出了一种机制，可以根据待学习的新图像类别自适应地从视觉和语义两方面结合信息，通过一系列实验表明，这种自适应组合可以在所有基准和 few-shot 情景上大幅优于当前单模态学习方法和模态对齐方法，特别是在少样本的情况下。

Feb, 2019

简单语义辅助的少样本学习

利用少量数据进行学习是一项具有挑战性的计算机视觉任务，本文通过引入高质量的语义以及使用简单的网络结构，设计了一个名为 “语义进化” 的自动化方式来解决少样本学习中的问题，实验证明该方法在少样本分类任务中表现优异。

Nov, 2023

看见不可见：为房间导航学习语义图

使用学习方法，结合语义地图进行室内导航，预测超出视野范围的置信度地图和目标点，模型可根据建筑模式和风格规律在新环境中进行导航，将房间导航任务简化为点导航可提高性能。

Jul, 2020

基于语义关系引导的双视角数据超分辨率方法用于少样本图像识别

通过利用语义关系引导双视图数据幻影，为小样本图像识别提供更多样化和合理化的新数据样本，该框架能通过从基础类别中进行有效的信息传递生成新颖类别的样本。其中，实例视图数据幻影模块利用基础类别的局部语义相关注意力和全局语义特征融合生成新颖类别的每个样本；原型视图数据幻影模块利用语义感知度量来估计新颖类别的原型和相关分布，从而实现对大量样本的重新采样，提高样本的稳定性。通过在几个常用的小样本数据集上与最先进的方法进行了广泛的实验和比较，验证了该框架的有效性。

Jan, 2024

使用声学图像的音视频模型蒸馏

本研究旨在研究如何从视觉数据和新型的音频数据模式 —— 声学图像中学习丰富和强大的音频分类特征表示，通过利用新的多模态标记行动识别数据集，并针对性地训练音频深度学习模型，从视觉和声学图像方面实现知识蒸馏，以获得比单麦克风声音数据训练模型更强大和更具有一般化能力的特征表示。

Apr, 2019

利用视点引导的球面映射改善语义对应

自监督表征学习在提取图像特征方面取得了近期的进展，但在面对对称性和重复部分等具有挑战性的图像特征时仍存在限制。为了解决这些限制，本文提出一种新的语义对应估计方法，将有区分度的自监督特征与三维理解相结合，通过弱几何球面先验进行补充。与更复杂的三维流程相比，我们的模型仅需要弱视点信息，我们球面表示的简单性使我们能够在训练过程中注入信息丰富的几何先验。我们提出了一个更好地考虑重复部分和对称性误差的新评估指标。我们在具有挑战性的 SPair-71k 数据集上呈现结果，表明我们的方法能够在许多物体类别上区分对称视图和重复部分，并且还证明我们能够推广到 AwA 数据集上的未见类别。

Dec, 2023

声音引导下的语义视频生成

本文提出了一种利用多模态（声音 - 图像 - 文本）嵌入空间生成逼真视频的框架，通过将声音和 StyleGAN 潜空间相结合生成一个语义上和声音一致的视频，并且在视频质量和编辑方面超过了现有的最先进方法。

Apr, 2022

三维重建房间的新颖视角声学合成

探究结合盲音频录音和 3D 场景信息对新视角声学合成的益处。通过 2-4 个麦克风的音频录音和包含多个未知声源的场景的 3D 几何学和材料，估计场景中的任何声音。我们确定了新视角声学合成的主要挑战，即声源定位、分离和去混响。虽然简单地训练端到端网络不能产生高质量的结果，但我们证明了融入从 3D 重建房间导出的房间脉冲响应（RIRs）使得相同的网络能够统一解决这些任务。我们的方法优于针对各个任务设计的现有方法，证明其在利用 3D 视觉信息方面的有效性。在 Matterport3D-NVAS 数据集上的模拟研究中，我们的模型在源定位方面实现了接近完美的准确性，源分离和去混响方面的 PSNR 为 26.44 dB 和 SDR 为 14.23 dB，从而在新视角声学合成方面获得了 PSNR 为 25.55 dB 和 SDR 为 14.20 dB 的结果。项目网页提供了代码、预训练模型和视频结果。

Oct, 2023