AVGZSLNet: 多模嵌入重构标签特征的音视频广义零样本学习

May, 2020

AVGZSLNet: 多模嵌入重构标签特征的音视频广义零样本学习

AVGZSLNet: Audio-Visual Generalized Zero-Shot Learning by Reconstructing Label Features from Multi-Modal Embeddings

Pratik Mazumder, Pravendra Singh, Kranti Kumar Parida, Vinay P. Namboodiri

TL;DR本文提出了一种新的多模式推广零样本学习方法，使用文本嵌入的语义相关性将音频和视频嵌入与相应类别标签文本特征空间对齐，使用交叉模态解码器和组合三元组损失，在多模态设置中来执行零样本学习，实验证明该方法在各种模态下的推广零样本分类和检索任务中都优于其他模型。

Abstract

In this paper, we propose a novel approach for generalized zero-shot learning in a multi-modal setting, where we have novel classes of audio/video during testing that are not seen during training. We use the

zero-shot learning multi-modal semantic relatedness cross-modal decoder triplet loss

发现论文，激发创造

面向音视频零样本分类和检索的联合多模态嵌入

本文提出了一种基于视听多模态的零样本学习（ZSL）方法，针对视频进行分类和检索。作者证明了视听模态均对视频的 ZSL 非常重要，提出了一个利用已有大规模音频事件数据集构建的视听多模态数据集，并通过嵌入学习方法实现零样本分类和检索任务中加入音频模态的性能提升，并提出了一种新的方法来预测 ' 主导 ' 模态，从而证明了该视听多模态方法在未知测试类中仍具有推广能力。

Oct, 2019

跨模态关注和语言的视听通用零样本学习

该论文提出了基于视频和音频数据的零样本学习方法，通过跨模态注意力学习多模态表示，并利用文本标签嵌入将知识从已见类别转移到未见类别，并在三个不同规模和难度的音视频数据集上进行了基准测试，结果表明，所提出的 AVCA 模型在所有三个数据集上均取得了最先进的性能。

Mar, 2022

使用预训练大型多模态模型的音频视觉广义零样本学习

利用预训练模型，包括 CLIP 和 CLAP 提取特征，结合文本编码嵌入以提高性能，我们提出了一个仅依赖前馈神经网络的简单而有效的模型来处理音频视觉的零样本学习，并在 VGGSound-GZSL、UCF-GZSL 和 ActivityNet-GZSL 等数据集上取得了最先进的性能。

Apr, 2024

音视频零样本学习的时间和跨模态注意力

该研究提出了一种多模态和时间交叉注意力框架，可以利用音频和视觉信息的自然语义和时间对齐关系来实现音频 - 视觉广义零样本学习，并在多个基准测试中取得了最先进的性能。

Jul, 2022

基于语义嵌入的零样本音频分类

本文通过使用从声音类别的文本标签和句子描述中提取的语义嵌入来进行零样本学习音频分类，并采用双线性兼容性框架在音频实例和声音类别之间学习声学 - 语义投影，即声学嵌入和语义嵌入。最终采用线性兼容性函数进行音频分类，其中度量声学嵌入和语义嵌入的兼容性。通过实验结果表明：“label/sentence embeddings” 与不同语言模型生成的嵌入的混合连接的分类结果进一步改善了分类性能。

Nov, 2020

使用多模态变分自编码器和语义概念进行广义零样本学习

我们提出了一个多模态变分自编码器 (M-VAE)，能够在学习图像特征和语义空间之间的共享潜在空间上，通过使用多模态损失来拟合多模态数据。该方法可用于预测新样本，且实验结果表明在广义零样本学习方面，我们提出的模型优于当前最先进的方法。

Jun, 2021

泛零样本学习生成对抗网络

本文研究了广义零样学习问题，提出了一种新的模型联合了三种不同的方法：视觉 -> 语义映射，语义 -> 视觉映射和度量学习，并且将它们统一在一个框架内，最终的实验结果表明该模型不仅在分类已知类别的图像上具有较高的准确性，而且在分类未知类别的图像上性能也比现有的最先进模型要更好。

Nov, 2018

基于语义的零样本学习视觉嵌入

提出了一种称为 joint embeddings for zero-shot learning 的方法，通过计算代理任务上的两流网络中的联合图像和文本模型来学习语义基础和丰富的视觉信息，并利用辅助字幕来提高图像和文本表示之间的对齐，从而在多个基准数据集上评估了该方法，在标准的（aPY 上 + 1.6％，FLO 上 + 2.6％）和常规的（AWA2 上 + 2.1％，CUB 上 + 2.2％）零 - shot 识别中提高了现有最先进方法的性能。

Jan, 2022

视频和音频检索的跨模态嵌入

本文介绍了一种利用 YouTube-8M 数据库中视听文件间共同区域来建立联系以自主训练深度神经网络的方法，实现了跨模态特征学习的无监督方法，并得出了良好的检索结果。

Jan, 2018

跨模态表示学习用于零样本动作识别

本篇研究提出了一种基于跨模态 Transformer 的框架，用于零样本动作识别，其将视频数据和文本标签进行联合编码，并通过一个新的管道来构建视觉和语义表示之间的共享知识空间，其中包括了一个语义传递的策略，通过将已有和未见的课程联合在一起，提高了在 UCF101、HMDB51 和 ActivityNet 基准数据集中的顶级准确度。

May, 2022