音频-文本对比零-shot学习中的类别可分离陷阱

Aug, 2024

音频-文本对比零-shot学习中的类别可分离陷阱

On Class Separability Pitfalls In Audio-Text Contrastive Zero-Shot Learning

Tiago Tavares, Fabio Ayres, Zhepei Wang, Paris Smaragdis

TL;DR本研究探讨了音频-文本跨模态对比学习中零-shot学习的准确性受到音频和文本基础架构的内在优势影响的问题。通过揭示这些优势并未来源于跨模态学习，研究提供了对现有方法的批判性洞察，指出了数据泄漏可能导致的偏差，这对未来的模型训练和应用具有重要影响。

Abstract

Recent advances in Audio-Text Cross-modal Contrastive Learning have shown its potential towards →

发现论文，激发创造

跨模态传递的零样本学习

该研究提出了一种模型，即使没有针对该对象的训练数据，也能在图像中识别对象，并从无监督的大型文本语料库中获取对未知类别的必要知识，在语言中的分布式信息可以被视为理解物体外观的语义基础。

Jan, 2013

面向音视频零样本分类和检索的联合多模态嵌入

本文提出了一种基于视听多模态的零样本学习（ZSL）方法，针对视频进行分类和检索。作者证明了视听模态均对视频的ZSL非常重要，提出了一个利用已有大规模音频事件数据集构建的视听多模态数据集，并通过嵌入学习方法实现零样本分类和检索任务中加入音频模态的性能提升，并提出了一种新的方法来预测'主导'模态，从而证明了该视听多模态方法在未知测试类中仍具有推广能力。

Oct, 2019

AVGZSLNet: 多模嵌入重构标签特征的音视频广义零样本学习

本文提出了一种新的多模式推广零样本学习方法，使用文本嵌入的语义相关性将音频和视频嵌入与相应类别标签文本特征空间对齐，使用交叉模态解码器和组合三元组损失，在多模态设置中来执行零样本学习，实验证明该方法在各种模态下的推广零样本分类和检索任务中都优于其他模型。

May, 2020

跨模态关注和语言的视听通用零样本学习

该论文提出了基于视频和音频数据的零样本学习方法，通过跨模态注意力学习多模态表示，并利用文本标签嵌入将知识从已见类别转移到未见类别，并在三个不同规模和难度的音视频数据集上进行了基准测试，结果表明，所提出的AVCA模型在所有三个数据集上均取得了最先进的性能。

Mar, 2022

音视频零样本学习的时间和跨模态注意力

该研究提出了一种多模态和时间交叉注意力框架，可以利用音频和视觉信息的自然语义和时间对齐关系来实现音频-视觉广义零样本学习，并在多个基准测试中取得了最先进的性能。

Jul, 2022

音频文本跨模态表示的无监督改进

本文研究了使用无配对数据进行无监督学习的方法，结合领域特定的有软标签的对比损失方法可以显著提高跨模态音频-文本表示学习的效果及其在零样本分类任务中的性能。

May, 2023

跨模态检索遇见推理：通过跨模态检索提升零样本分类

通过跨模态引导和模态置信度集成，X-MoRe方法利用CLIP的跨模态表示能力，从外部图文对数据集中检索相关的文本信息，并通过赋予可靠性更高的模态对最终预测产生贡献，从而在多样化的任务中展示了稳健的性能，充分发挥了CLIP的零样本分类能力。

Aug, 2023

CWCL：使用持续加权对比损失进行跨模态迁移

本文探讨了交叉感知培训中的对比训练，其中一个模态的预训练模型通过成对的数据用于学习另一个领域的表示学习。采用连续加权对比损失（CWCL）的本文提出了一个新的损失函数，通过连续相似性度量来对齐嵌入空间。在0-shot图像分类、0-shot语音意图分类和关键词分类中取得了相对于现有方法的显著改进。

Sep, 2023

连接，塌陷，腐败：利用单模态数据学习跨模态任务

利用预训练的多模态对比表示空间可以从单模态数据中学习跨模态任务，我们提供了这个空间几何的理论解释，并引入了一个三步方法（连接、降维、破坏）来缩小模态差距，增强嵌入的互换性，实现了从单模态数据中有效地进行跨模态学习，取得了零样本图像/音频/视频字幕和文本到图像生成的最新成果。

Jan, 2024

音视通用零样本学习简洁方法

简介：该研究提出了一个名为EZ-AVGZL的简单而有效的Easy Audio-Visual Generalized Zero-shot Learning框架，通过将音频-视觉嵌入与转换的文本表示对齐，学习了音频-视觉和文本的模态之间的关系，实现了音频-视觉广义零样本学习中的最先进表现。

Jul, 2024