音视通用零样本学习简洁方法

Jul, 2024

Audio-visual Generalized Zero-shot Learning the Easy Way

Shentong Mo, Pedro Morgado

TL;DR简介：该研究提出了一个名为EZ-AVGZL的简单而有效的Easy Audio-Visual Generalized Zero-shot Learning框架，通过将音频-视觉嵌入与转换的文本表示对齐，学习了音频-视觉和文本的模态之间的关系，实现了音频-视觉广义零样本学习中的最先进表现。

Abstract

audio-visual generalized zero-shot learning is a rapidly advancing domain that seeks to understand the intricate relations between audio and visual cues within videos. The overarching goal is to leverage insights from seen classes to identify instances from previously unseen ones. Prio

发现论文，激发创造

零样本学习有效深度嵌入

本文针对零样本学习中的交叉域匹配问题，详细探讨优秀的embedding空间应满足的两个标准：类内紧度和类间可分性，并提出了一种基于两个分支网络的方法来同时映射语义描述和视觉样本到joint空间，并在其中强制要求视觉嵌入与类级语义嵌入相同，同时实现区分可训练分类器，实现跨未知类别输入的优化过程。此外，我们还扩展了我们的方法来处理ZSL中的模型偏差问题，并在五个标准数据集上获得了卓越的性能。

Aug, 2018

面向音视频零样本分类和检索的联合多模态嵌入

本文提出了一种基于视听多模态的零样本学习（ZSL）方法，针对视频进行分类和检索。作者证明了视听模态均对视频的ZSL非常重要，提出了一个利用已有大规模音频事件数据集构建的视听多模态数据集，并通过嵌入学习方法实现零样本分类和检索任务中加入音频模态的性能提升，并提出了一种新的方法来预测'主导'模态，从而证明了该视听多模态方法在未知测试类中仍具有推广能力。

Oct, 2019

AVGZSLNet: 多模嵌入重构标签特征的音视频广义零样本学习

本文提出了一种新的多模式推广零样本学习方法，使用文本嵌入的语义相关性将音频和视频嵌入与相应类别标签文本特征空间对齐，使用交叉模态解码器和组合三元组损失，在多模态设置中来执行零样本学习，实验证明该方法在各种模态下的推广零样本分类和检索任务中都优于其他模型。

May, 2020

跨模态关注和语言的视听通用零样本学习

该论文提出了基于视频和音频数据的零样本学习方法，通过跨模态注意力学习多模态表示，并利用文本标签嵌入将知识从已见类别转移到未见类别，并在三个不同规模和难度的音视频数据集上进行了基准测试，结果表明，所提出的AVCA模型在所有三个数据集上均取得了最先进的性能。

Mar, 2022

音视频零样本学习的时间和跨模态注意力

该研究提出了一种多模态和时间交叉注意力框架，可以利用音频和视觉信息的自然语义和时间对齐关系来实现音频-视觉广义零样本学习，并在多个基准测试中取得了最先进的性能。

Jul, 2022

音频文本跨模态表示的无监督改进

本文研究了使用无配对数据进行无监督学习的方法，结合领域特定的有软标签的对比损失方法可以显著提高跨模态音频-文本表示学习的效果及其在零样本分类任务中的性能。

May, 2023

利用大型语言模型提升音频-视觉零样本学习的能力

我们提出了一种名为知识感知分布自适应(KDA)的简单而有效的框架，通过使用大型语言模型生成丰富的描述，从而更好地理解未知类别，并引入分布对齐损失和知识感知自适应边界损失来进一步提高对未知类别的泛化能力。在三个受欢迎的音视频零样本学习数据集上，广泛的实验结果表明我们的KDA方法优于现有的最先进方法。

Nov, 2023

使用预训练大型多模态模型的音频视觉广义零样本学习

利用预训练模型，包括CLIP和CLAP提取特征，结合文本编码嵌入以提高性能，我们提出了一个仅依赖前馈神经网络的简单而有效的模型来处理音频视觉的零样本学习，并在VGGSound-GZSL、UCF-GZSL和ActivityNet-GZSL等数据集上取得了最先进的性能。

Apr, 2024

音频视觉广义零样本学习的分布外检测：一个通用框架

本研究针对音频视觉广义零样本学习中的准确分类问题，提出了一种集成嵌入和生成方法的通用框架。该框架通过生成对抗网络合成未见特征，从而训练分布外检测器，提高了对测试特征的分类性能，并在多个数据集上显著改善了现有最先进的结果。

Aug, 2024

音频-文本对比零-shot学习中的类别可分离陷阱

本研究探讨了音频-文本跨模态对比学习中零-shot学习的准确性受到音频和文本基础架构的内在优势影响的问题。通过揭示这些优势并未来源于跨模态学习，研究提供了对现有方法的批判性洞察，指出了数据泄漏可能导致的偏差，这对未来的模型训练和应用具有重要影响。

Aug, 2024