音视少样本学习的文本特征传播

Sep, 2023

Text-to-feature diffusion for audio-visual few-shot learning

Otniel-Bogdan Mercea, Thomas Hummel, A. Sophia Koepke, Zeynep Akata

TL;DR通过少量标记数据进行音视频数据的深度学习模型训练是一种更经济的方式，本研究提出了一种统一的音视频少样本视频分类基准，通过跨模态注意力融合时空和音视觉特征，并为新类别生成多模态特征，最终获得了最先进的音视频少样本学习表现。

Abstract

Training deep learning models for video classification from audio-visual data commonly requires immense amounts of labeled training data c

发现论文，激发创造

看、听、学习

探索了音视频流之间对应关系，并提出了利用该信息实现的自我监督视听学习任务，结果表明该方法成功解决了问题，并展现出良好的视听表征，可以将其应用于声音分类、物体定位和细粒度识别任务。

May, 2017

使用声学图像的音视频模型蒸馏

本研究旨在研究如何从视觉数据和新型的音频数据模式——声学图像中学习丰富和强大的音频分类特征表示，通过利用新的多模态标记行动识别数据集，并针对性地训练音频深度学习模型，从视觉和声学图像方面实现知识蒸馏，以获得比单麦克风声音数据训练模型更强大和更具有一般化能力的特征表示。

Apr, 2019

面向音视频零样本分类和检索的联合多模态嵌入

本文提出了一种基于视听多模态的零样本学习（ZSL）方法，针对视频进行分类和检索。作者证明了视听模态均对视频的ZSL非常重要，提出了一个利用已有大规模音频事件数据集构建的视听多模态数据集，并通过嵌入学习方法实现零样本分类和检索任务中加入音频模态的性能提升，并提出了一种新的方法来预测'主导'模态，从而证明了该视听多模态方法在未知测试类中仍具有推广能力。

Oct, 2019

深度音视频学习综述

本篇论文综述了近期音视频学习发展的四个子领域：音视频分离和定位，音视频对应学习，音视频生成以及音视频表示学习，重点讨论其最先进的方法，剩余的挑战以及常用的数据集和性能评估。

Jan, 2020

AVGZSLNet: 多模嵌入重构标签特征的音视频广义零样本学习

本文提出了一种新的多模式推广零样本学习方法，使用文本嵌入的语义相关性将音频和视频嵌入与相应类别标签文本特征空间对齐，使用交叉模态解码器和组合三元组损失，在多模态设置中来执行零样本学习，实验证明该方法在各种模态下的推广零样本分类和检索任务中都优于其他模型。

May, 2020

跨模态关注和语言的视听通用零样本学习

该论文提出了基于视频和音频数据的零样本学习方法，通过跨模态注意力学习多模态表示，并利用文本标签嵌入将知识从已见类别转移到未见类别，并在三个不同规模和难度的音视频数据集上进行了基准测试，结果表明，所提出的AVCA模型在所有三个数据集上均取得了最先进的性能。

Mar, 2022

音视频零样本学习的时间和跨模态注意力

该研究提出了一种多模态和时间交叉注意力框架，可以利用音频和视觉信息的自然语义和时间对齐关系来实现音频-视觉广义零样本学习，并在多个基准测试中取得了最先进的性能。

Jul, 2022

关于大规模自供训练方法在少样本语音分类中的可迁移性

近年来，自监督学习因其能够从无标签数据中学习出鲁棒特征表示而取得了优异结果。本研究评估了大规模自监督模型在少样本音频分类中的性能，并探讨了模型的少样本学习能力与其他下游任务基准的关系，发现在某些少样本问题（如SpeechCommandsv2）中具有最先进的性能，并且语音为基础的少样本问题与各种下游音频任务之间存在强相关性。

Feb, 2024

AVFF：音视特征融合用于视频深度伪造检测

通过跨模态学习方法的视听特征融合，我们提出了一种用于改进深假检测的两阶段方法，可以明确地捕捉音频和视觉模态之间的对应关系，并在真实和伪造视频上进行监督学习，取得了98.6%的准确率和99.1%的AUC，相较于当前的音视混合最先进技术，准确率和AUC分别提高了14.9%和9.9%。

Jun, 2024

音视通用零样本学习简洁方法

简介：该研究提出了一个名为EZ-AVGZL的简单而有效的Easy Audio-Visual Generalized Zero-shot Learning框架，通过将音频-视觉嵌入与转换的文本表示对齐，学习了音频-视觉和文本的模态之间的关系，实现了音频-视觉广义零样本学习中的最先进表现。

Jul, 2024