分层增强和蒸馏的类别增量音视频识别

Jan, 2024

分层增强和蒸馏的类别增量音视频识别

Hierarchical Augmentation and Distillation for Class Incremental Audio-Visual Video Recognition

Yukun Zuo, Hantao Yao, Liansheng Zhuang, Changsheng Xu

TL;DR音视频识别通过整合音频和视觉线索来准确分类视频。本文旨在解决传统方法在面对真实世界中的新类别时无法保留历史类别知识的问题，提出了一种 Hierarchical Augmentation and Distillation（HAD）方法，通过分层增强以及分层蒸馏模块来高效利用数据和模型的分层结构，以捕捉和保持数据和模型的分层知识，实现更好地保护历史类别知识和提升性能。

Abstract

audio-visual video recognition (AVVR) aims to integrate audio and visual clues to categorize videos accurately. While existing methods train AVVR models using provided datasets and achieve satisfactory results, they struggle to retain →

audio-visual video recognition class incremental audio-visual video recognition hierarchical augmentation and distillation historical class knowledge segmental feature augmentation

发现论文，激发创造

音视类增量学习

通过引入双通道音频 - 视觉相似性约束（D-AVSC）和视觉注意聚焦（VAD）的音频 - 视觉类增量学习方法（AV-CIL），维持音频 - 视觉模态之间的实例感知和类感知语义相似性，保留先前学习的音频指导训练能力，从而克服了当前方法在不断增加的类增量步骤中保持语义相似性的挑战，实验证明 AV-CIL 在音频 - 视觉类增量学习中显著优于现有的类增量学习方法。

Aug, 2023

通过附带关键音频 - 视觉线索的文本回答多样化问题

音视频问答（AVQA）需要参考视频内容和听觉信息，然后将问题相关联以预测最精确的答案。本文提出了一种进行互相关蒸馏（MCD）的框架，以帮助问题推理。通过增强音视频软关联、知识蒸馏和解耦音视频依赖等步骤，我们的方法在多个问答数据集上展现出优于其他方法的表现，有趣的发现是，在推理过程中去除深度音视频特征可以有效减轻过拟合问题。

Mar, 2024

对抗性视频蒸馏

本研究介绍了一种基于压缩为图像的视频表示方法（Adversarial Video Distillation），通过 3D 卷积编码器 - 解码器网络将输入视频编码为一张图像，并通过对输出图像的对抗性训练来生成语义逼真的图像，以实现基于图像分析技术的视频分析。实验结果表明，该方法在 UCF101、HMDB51 和 Kinetics 三个标准和具有挑战性的基准数据集上达到了卓越的性能，胜过了现有的视频分类方法。

Jul, 2019

通过组合对比学习提炼视听知识

本文介绍了一种新的跨模态知识迁移方法，使用组合对比学习来学习复合嵌入，通过学习多模态知识来改善视频表示学习表现。在三个视频数据集上进行的实验表明，该方法显著优于现有的知识蒸馏方法。

Apr, 2021

HaVTR：利用大型基础模型改进视频 - 文本检索的方法

HaVTR 提出了一种新颖的视频 - 文本学习范式，通过数据增强和引入生成模型生成更加丰富的数据，提高视频 - 文本检索模型的表示学习能力，在多个检索基准测试中展现了优越性。

Apr, 2024

音视少样本学习的文本特征传播

通过少量标记数据进行音视频数据的深度学习模型训练是一种更经济的方式，本研究提出了一种统一的音视频少样本视频分类基准，通过跨模态注意力融合时空和音视觉特征，并为新类别生成多模态特征，最终获得了最先进的音视频少样本学习表现。

Sep, 2023

弱监督视频异常检测的聚合知识蒸馏

通过将多个骨干模型的聚合表示进行知识蒸馏，我们提出了一种相对简单的模型，达到了最先进的性能。我们的方法在多个基准数据集上取得了显著提高，尤其是在 UCF-Crime、ShanghaiTech 和 XD-Violence 数据集上，分别实现了 1.36％、0.78％和 7.02％的显著改进。

Jun, 2024

AVA-AVD: 野外音视频说话人分离

本研究致力于提高在野外视频中识别 “谁何时说话” 的音视频扬声器分离的准确性，它创建了 AVA 音频 - 视觉扬声器分离（AVA-AVD）数据集和一种称为 AVR-Net 的新方法，通过加入 AVA-AVD 数据集的训练可以在相对较小的数据集上显着提高结果。

Nov, 2021

使用声学图像的音视频模型蒸馏

本研究旨在研究如何从视觉数据和新型的音频数据模式 —— 声学图像中学习丰富和强大的音频分类特征表示，通过利用新的多模态标记行动识别数据集，并针对性地训练音频深度学习模型，从视觉和声学图像方面实现知识蒸馏，以获得比单麦克风声音数据训练模型更强大和更具有一般化能力的特征表示。

Apr, 2019

音视频扫视网络用于高效视频识别

通过利用音频和视觉模态在视频中高效处理时空重要部分，我们提出了一个名为 AVGN 的音视频感知网络，通过划分视频片段并使用轻量级单模态编码器和音频增强的空间块注意模块，实现了更高效的视频识别。同时结合多种训练技术和多模态特征融合，我们的 AVGN 在多个视频识别基准上取得了新的最高性能并实现了更快的处理速度。

Aug, 2023