音视类增量学习

ICCVAug, 2023

Audio-Visual Class-Incremental Learning

Weiguo Pian, Shentong Mo, Yunhui Guo, Yapeng Tian

TL;DR通过引入双通道音频 - 视觉相似性约束（D-AVSC）和视觉注意聚焦（VAD）的音频 - 视觉类增量学习方法（AV-CIL），维持音频 - 视觉模态之间的实例感知和类感知语义相似性，保留先前学习的音频指导训练能力，从而克服了当前方法在不断增加的类增量步骤中保持语义相似性的挑战，实验证明 AV-CIL 在音频 - 视觉类增量学习中显著优于现有的类增量学习方法。

Abstract

In this paper, we introduce audio-visual class-incremental learning, a class-incremental learning scenario for →

audio-visual class-incremental learning semantic similarity dual-audio-visual similarity constraint visual attention distillation

发现论文，激发创造

分层增强和蒸馏的类别增量音视频识别

音视频识别通过整合音频和视觉线索来准确分类视频。本文旨在解决传统方法在面对真实世界中的新类别时无法保留历史类别知识的问题，提出了一种 Hierarchical Augmentation and Distillation（HAD）方法，通过分层增强以及分层蒸馏模块来高效利用数据和模型的分层结构，以捕捉和保持数据和模型的分层知识，实现更好地保护历史类别知识和提升性能。

Jan, 2024

连续音频 - 视觉学习的增量聚类网络

提出了一种新颖的类增量分组网络 (CIGN)，可以学习类别级的语义特征，以实现持续的视听学习，取得了最先进的视听类别增量学习性能。

Sep, 2023

课程视听学习

本文提出了一种灵活的音视频模型，通过软聚类模块作为音频和视频内容检测器，并将音视频并发的普遍属性视为推断检测内容之间相关性的潜在监督，并提出一种新颖的课程学习策略，从简单到复杂的场景训练模型，以缓解音视频学习的困难。同时，本文的音视频模型还可提供有效的单模态表示和跨模态对齐性能，进一步将训练好的模型部署到实际音视频定位和分离任务中，并显示其定位模型明显优于现有方法，基于此，我们在音频分离方面的性能也表现出色，而不需要参考外部视觉监督。

Jan, 2020

跨模态关注和语言的视听通用零样本学习

该论文提出了基于视频和音频数据的零样本学习方法，通过跨模态注意力学习多模态表示，并利用文本标签嵌入将知识从已见类别转移到未见类别，并在三个不同规模和难度的音视频数据集上进行了基准测试，结果表明，所提出的 AVCA 模型在所有三个数据集上均取得了最先进的性能。

Mar, 2022

通过组合对比学习提炼视听知识

本文介绍了一种新的跨模态知识迁移方法，使用组合对比学习来学习复合嵌入，通过学习多模态知识来改善视频表示学习表现。在三个视频数据集上进行的实验表明，该方法显著优于现有的知识蒸馏方法。

Apr, 2021

当视频分类遇见增量类

本文提出了一种新框架来解决 Class-Incremental 视频分类（CIVC）任务，它可以不断更新新类别，同时保持旧视频的知识，并利用视频的一些特性来更好地减轻遗忘的挑战。在 Something-Something V2 和 Kinetics 数据集上进行评估，结果显示本文的方法显着优于之前的最先进的类别增量学习方法。

Jun, 2021

EquiAV：利用等变性进行音频视觉对比学习

在自监督音频 - 视觉表示学习方面的最新进展中，引入了 EquiAV 框架，通过利用等变性来实现音频 - 视觉对比学习，并通过共享的基于注意力的转换预测器实现特征聚合，从而提供了稳健的监督。EquiAV 在各种音频 - 视觉基准测试中优于之前的工作。

Mar, 2024

自监督同步下的音频和视频模型协同学习

该研究通过自监督的时间同步学习模型实现音频和视频分析的目的，模型能够在没有微调的情况下有效地识别出时序同步的音频 - 视频配对，并提供了一种非常有效的初始化方式以改善基于视频的动作识别模型的准确性。

Jun, 2018

音视少样本学习的文本特征传播

通过少量标记数据进行音视频数据的深度学习模型训练是一种更经济的方式，本研究提出了一种统一的音视频少样本视频分类基准，通过跨模态注意力融合时空和音视觉特征，并为新类别生成多模态特征，最终获得了最先进的音视频少样本学习表现。

Sep, 2023

基于标签生成的类增量学习

本文提出了一种新的类增量学习方法（VAG），通过将类增量学习视为一个连续标签生成问题，利用预先训练模型的可推广表达来减少灾难性遗忘，并利用词汇表的稀疏性来聚焦生成，同时通过使用标签语义来创建伪重放样本。实验结果表明，VAG 方法的表现优于基线方法。

Jun, 2023