具有对应分类器的自监督音频空间定位

May, 2019

具有对应分类器的自监督音频空间定位

Self-supervised Audio Spatialization with Correspondence Classifier

Yu-Ding Lu, Hsin-Ying Lee, Hung-Yu Tseng, Ming-Hsuan Yang

TL;DR本文介绍了一种使用自监督网络进行音频空间化的方法，并使用辅助分类器和大规模视频数据集来提高性能，取得了较好的实验结果。

Abstract

spatial audio is an essential medium to audiences for 3D visual and auditory experience. However, the recording devices and techniques are expensive or inaccessible to the general public. In this work, we propose a self-supervised →

spatial audio self-supervised network audio spatialization auxiliary classifier video dataset

发现论文，激发创造

左右分辨：学习视听的空间对应关系

使用自监督学习的方法，提出在音频流和视觉流中，通过匹配空间信息识别声源位置，通过实验得到能够有效训练的模型并通过大规模视频数据集 YouTube-ASMR-300K 进行评估，在音视频任务中得到比监督学习和其他自监督方法更高的性能，并证明了在球面导向视屏中拓展我们的自监督方法。

Jun, 2020

360° 视频自监督空间音频生成

通过使用端到端可训练的神经网络，我们的方法根据音频和 360 度视频帧的多模态分析，将由 360 度视频相机记录的单声道音频转换为空间音频，并从中分离和定位单独的声源于观看球上，因此通过我们的方法，仅使用 360 度视频和单声道音轨就可以推断声源的空间位置。

Sep, 2018

利用部分监督的视听一致性生成空间音频

该研究提出了一种音频空间化框架，利用音频和视觉组件之间的关系将单通道视频转换为双耳音频，通过在音频和视觉模态中保留左右一致性的学习策略来实现自监督学习，验证结果表明该框架在半监督和全监督方案中具有很好的效果。

May, 2021

从视听一致性中学习自我中心视频的空间特征

基于自监督方法，我们提出了一种学习表示的方法，基于主观视角视频中的空间音频 - 视觉对应关系。我们利用掩蔽自编码框架合成掩蔽的双耳音频，通过音频和视觉的协同作用来学习有用的空间关系。我们利用预先训练的特征来解决在社交场景中需要空间理解的两个下游视频任务：活跃说话者检测和空间音频去噪。通过大量实验证明，我们的特征足够通用，能够在两个公开具有挑战性的主观视角视频数据集 EgoCom 和 EasyCom 上改进多个最先进的基准模型。

Jul, 2023

从音频 - 视觉空间对齐中学习表示

介绍了一个针对学习自我监督前置任务的音频视频表示方法，通过引入 transformer 架构和空间对齐技术，提高了网络的感知和学习效率，结果表明，该方法在诸如音频视觉对应、空间对齐、动作识别、视频语义分割等多项任务中表现出良好的性能。

Nov, 2020

通过概率空间建模的自监督神经音频视觉声源定位

该论文介绍了一种利用 360 度图像和多通道音频信号的自监督训练方法来训练深度神经网络以区分多个声源对象的系统，旨在解决自主机器人理解周围环境的问题。

Jul, 2020

自监督学习用于音视频发言人分离

提出自监督的音视频同步学习方法，通过引入动态三元组损失和多项式损失函数来解决说话人分离问题，结果表明该方法在人机交互系统中大幅提高了 F1 分数和降低了分离误差率，并且介绍了一个新的大规模中文音视频语料库。

Feb, 2020

时序自监督的音视频对比学习

本文提出了一种自我监督学习方法，用于学习视频的表示，结合了 RGB 帧和相关的音频，通过多模式对比目标来扩展时间自我监督的音频 - 视觉设置，并提出了新的对比目标。

Feb, 2023

自监督对比学习中的空间声音事件表征探索

通过多通道对比学习框架（MC-SimCLR），本研究展示了一个简单的方法来对空间音频的 'what' 和 'where' 进行编码。通过从无标签的空间音频中学习联合的频谱和空间表示，MC-SimCLR 能够在事件分类和声音定位等下游任务中提高效果。

Sep, 2023

视频中音视频对象的自监督学习

本文提出了一种使用自监督学习把视频转化成一组离散的音频 - 视觉物体的模型，并通过注意力定位和分组声源，光流聚合信息等方式提高了模型的准确度。实验表明，本模型学习到的音频 - 视觉对象嵌入可用于解决多说话者音源分离、说话人定位、音频 - 视觉数据校正和活跃说话人检测等四个任务，同时，使用非人类演讲者数据表明了本方法的可泛化性和比其他相关研究更好的效果。

Aug, 2020