音视类增量学习
音视频识别通过整合音频和视觉线索来准确分类视频。本文旨在解决传统方法在面对真实世界中的新类别时无法保留历史类别知识的问题,提出了一种 Hierarchical Augmentation and Distillation(HAD)方法,通过分层增强以及分层蒸馏模块来高效利用数据和模型的分层结构,以捕捉和保持数据和模型的分层知识,实现更好地保护历史类别知识和提升性能。
Jan, 2024
本文提出了一种灵活的音视频模型,通过软聚类模块作为音频和视频内容检测器,并将音视频并发的普遍属性视为推断检测内容之间相关性的潜在监督,并提出一种新颖的课程学习策略,从简单到复杂的场景训练模型,以缓解音视频学习的困难。同时,本文的音视频模型还可提供有效的单模态表示和跨模态对齐性能,进一步将训练好的模型部署到实际音视频定位和分离任务中,并显示其定位模型明显优于现有方法,基于此,我们在音频分离方面的性能也表现出色,而不需要参考外部视觉监督。
Jan, 2020
该论文提出了基于视频和音频数据的零样本学习方法,通过跨模态注意力学习多模态表示,并利用文本标签嵌入将知识从已见类别转移到未见类别,并在三个不同规模和难度的音视频数据集上进行了基准测试,结果表明,所提出的 AVCA 模型在所有三个数据集上均取得了最先进的性能。
Mar, 2022
本文介绍了一种新的跨模态知识迁移方法,使用组合对比学习来学习复合嵌入,通过学习多模态知识来改善视频表示学习表现。在三个视频数据集上进行的实验表明,该方法显著优于现有的知识蒸馏方法。
Apr, 2021
本文提出了一种新框架来解决 Class-Incremental 视频分类(CIVC)任务,它可以不断更新新类别,同时保持旧视频的知识,并利用视频的一些特性来更好地减轻遗忘的挑战。 在 Something-Something V2 和 Kinetics 数据集上进行评估,结果显示本文的方法显着优于之前的最先进的类别增量学习方法。
Jun, 2021
在自监督音频 - 视觉表示学习方面的最新进展中,引入了 EquiAV 框架,通过利用等变性来实现音频 - 视觉对比学习,并通过共享的基于注意力的转换预测器实现特征聚合,从而提供了稳健的监督。EquiAV 在各种音频 - 视觉基准测试中优于之前的工作。
Mar, 2024
该研究通过自监督的时间同步学习模型实现音频和视频分析的目的,模型能够在没有微调的情况下有效地识别出时序同步的音频 - 视频配对,并提供了一种非常有效的初始化方式以改善基于视频的动作识别模型的准确性。
Jun, 2018
通过少量标记数据进行音视频数据的深度学习模型训练是一种更经济的方式,本研究提出了一种统一的音视频少样本视频分类基准,通过跨模态注意力融合时空和音视觉特征,并为新类别生成多模态特征,最终获得了最先进的音视频少样本学习表现。
Sep, 2023
本文提出了一种新的类增量学习方法(VAG),通过将类增量学习视为一个连续标签生成问题,利用预先训练模型的可推广表达来减少灾难性遗忘,并利用词汇表的稀疏性来聚焦生成,同时通过使用标签语义来创建伪重放样本。实验结果表明,VAG 方法的表现优于基线方法。
Jun, 2023