EquiAV：利用等变性进行音频视觉对比学习

Mar, 2024

EquiAV：利用等变性进行音频视觉对比学习

EquiAV: Leveraging Equivariance for Audio-Visual Contrastive Learning

Jongsuk Kim, Hyeongkeun Lee, Kyeongha Rho, Junmo Kim, Joon Son Chung

TL;DR在自监督音频 - 视觉表示学习方面的最新进展中，引入了 EquiAV 框架，通过利用等变性来实现音频 - 视觉对比学习，并通过共享的基于注意力的转换预测器实现特征聚合，从而提供了稳健的监督。EquiAV 在各种音频 - 视觉基准测试中优于之前的工作。

Abstract

Recent advancements in self-supervised audio-visual representation learning have demonstrated its potential to capture rich and comprehensive representations. However, despite the advantages of data augmentation

self-supervised audio-visual representation learning equiav equivariance audio-visual contrastive learning data augmentation

发现论文，激发创造

利用变换不变性和等变性进行自监督声音定位

提出一种简单而有效的自监督框架，用于音频 - 视觉表示学习，以定位视频中的声音源。通过系统地研究数据增强的效果，揭示出数据增强的组成对学习有用的表示起到了至关重要的作用，并且实验证明了该模型在两个声音定位基准测试上显著优于以前的方法。

Jun, 2022

时间等变对比视频表示学习

介绍了一种新的自监督对比学习方法，旨在从未标记的视频中学习表示。该方法利用新的约束条件，以建立对时间变换等价的表示，并更好地捕捉视频动态。实验表明，时间等变表示在 UCF101，HMDB51 和 Diving48 的视频检索和动作识别基准测试中实现了最先进的结果。

Dec, 2021

看似相似，听起来不同：利用反事实的跨模态样本进行视听表示学习

研究了在音频与视觉之间进行对应时，出现多个音频轨道时的学习效果，探讨了使用配音版本来增加跨模态对比学习的方法，提出了考虑语音变化时学习场景级别的音频视觉对应关系的重要性，并表明配音可以作为训练音频视觉模型的一种有用增强技术。

Apr, 2023

音视类增量学习

通过引入双通道音频 - 视觉相似性约束（D-AVSC）和视觉注意聚焦（VAD）的音频 - 视觉类增量学习方法（AV-CIL），维持音频 - 视觉模态之间的实例感知和类感知语义相似性，保留先前学习的音频指导训练能力，从而克服了当前方法在不断增加的类增量步骤中保持语义相似性的挑战，实验证明 AV-CIL 在音频 - 视觉类增量学习中显著优于现有的类增量学习方法。

Aug, 2023

从音频 - 视觉空间对齐中学习表示

介绍了一个针对学习自我监督前置任务的音频视频表示方法，通过引入 transformer 架构和空间对齐技术，提高了网络的感知和学习效率，结果表明，该方法在诸如音频视觉对应、空间对齐、动作识别、视频语义分割等多项任务中表现出良好的性能。

Nov, 2020

通过等变表示的对比学习

提出了一种新的基于等变性的对比学习（ECL）框架 CLeVER，兼容各种主流对比学习方法和模型框架的任意复杂的增强策略，并通过从数据中提取和整合等变信息，提高了基线模型在后续任务中的训练效率和鲁棒性。

Jun, 2024

可组合增强编码用于视频表示学习

研究自监督视频表示学习中的对比方法，提出一种考虑数据增强变量的对比学习框架，以提高针对时间信息进行的微粒视频动作识别的性能，并在多个视频基准测试中达到最先进水平。

Apr, 2021

情感回归和分类任务中处理单一和多模态的多功能视听学习

提出了用于处理单模式和多模式情感情况的多功能音视频学习框架，通过音视频共享层，残差连接和单模态重构任务实现有效的表示学习，在情感属性预测任务上达到了新的最先进性能。

May, 2023

AV-data2vec：具有语境目标表示的自监督学习音视频语音表征

本文介绍了一个名为 AV-data2vec 的模型，该模型利用预测上下文表示来构建音频 - 视觉表示，可以结合音频和视频来提高语音识别性能，相比现有方法，在大多数情况下，AV-data2vec 的表现都更好。

Feb, 2023

鲁棒音频视觉实例判别

本文介绍了一种自监督学习方法，以学习音频和视频表征，并通过行动识别任务的实验验证了其解决音频 - 视觉实例区别问题和提高迁移学习性能的贡献。

Mar, 2021