HAVE-Net: 基于虚拟的音频 - 视觉嵌入的少样本分类方法

KDDSep, 2023

HAVE-Net: 基于虚拟的音频 - 视觉嵌入的少样本分类方法

HAVE-Net: Hallucinated Audio-Visual Embeddings for Few-Shot Classification with Unimodal Cues

Ankit Jha, Debabrata Pal, Mainak Singha, Naman Agarwal, Biplab Banerjee

TL;DR提出了一个新颖的少样本生成框架，Hallucinated Audio-Visual Embeddings-Network (HAVE-Net)，用于远程感知数据中音频和视觉模态的元训练和分类，在 ADVANCE 和 AudioSetZSL 数据集上的实验结果表明，通过幻觉模态扩充策略进行少样本分类的分类器性能至少比使用真实多模态信息进行训练的分类器性能高出 0.8-2%。

Abstract

Recognition of remote sensing (RS) or aerial images is currently of great interest, and advancements in deep learning algorithms added flavor to it in recent years. Occlusion, intra-class variance, lighting, etc.

remote sensing deep learning algorithms neural networks few-shot learning generative framework

发现论文，激发创造

适用于少样本细粒度识别的跨模态幻象技术

提出一种基于深度学习的多模态方法，通过有意义的联合嵌入来弥合模型训练中数据不足的信息差距，并通过跨模态数据幻觉框架提出了一个区分性文本条件生成对抗网络，改进了基于 CUB 数据集的一、二、五次学习的模型准确性。

Jun, 2018

基于语义关系引导的双视角数据超分辨率方法用于少样本图像识别

通过利用语义关系引导双视图数据幻影，为小样本图像识别提供更多样化和合理化的新数据样本，该框架能通过从基础类别中进行有效的信息传递生成新颖类别的样本。其中，实例视图数据幻影模块利用基础类别的局部语义相关注意力和全局语义特征融合生成新颖类别的每个样本；原型视图数据幻影模块利用语义感知度量来估计新颖类别的原型和相关分布，从而实现对大量样本的重新采样，提高样本的稳定性。通过在几个常用的小样本数据集上与最先进的方法进行了广泛的实验和比较，验证了该框架的有效性。

Jan, 2024

面向音视频零样本分类和检索的联合多模态嵌入

本文提出了一种基于视听多模态的零样本学习（ZSL）方法，针对视频进行分类和检索。作者证明了视听模态均对视频的 ZSL 非常重要，提出了一个利用已有大规模音频事件数据集构建的视听多模态数据集，并通过嵌入学习方法实现零样本分类和检索任务中加入音频模态的性能提升，并提出了一种新的方法来预测 ' 主导 ' 模态，从而证明了该视听多模态方法在未知测试类中仍具有推广能力。

Oct, 2019

HalluAudio: 将频率幻觉化为概念进行少样本音频分类

本文针对少样本音频分类提出了一种新的方法，通过结构化的概念辅助实现高频和低频部分的理解和解释，进而利用特殊的音频格式提高性能。在 ESC-50 和 Kaggle18 数据集上的实验证明，本文提出的方法优于现有的基准方案，并具有解释性和潜在应用价值。

Feb, 2023

元幻影生成器：迈向小样本跨模态心脏图像分割

本文提出了一种基于元学习和数据幻觉的元幻觉框架，旨在解决医学图像分析中标签稀缺和领域转移问题，尤其是在少样本场景下，通过数据幻觉和交叉域知识传递来增强性能。对跨模态心脏分割的广泛实验表明，该方法在少样本无监督领域自适应情况下比其他方法表现更出色。

May, 2023

多模态原型网络用于少样本学习

该论文提出了一种跨模态特征生成框架，利用文本数据来弥补计算机视觉任务中数据稀缺的不足，进而提高分类结果，并在实验中证明该方法的有效性。

Nov, 2020

无监督可迁移模态视频精彩片段检测与表示激活序列学习

通过跨模态感知和自重建任务，在视觉 - 音频对数据中学习视觉 - 音频语义表示的网络，并通过表示激活序列学习模块（RASL）和对称对比学习模块（SCL）连接视觉模态与音频模态，提出了一种用于无监督高光检测的模型。在预训练期间，进行了掩码特征向量序列（FVS）重建的辅助任务，以增强表示。实验结果表明，所提出的框架相对于其他最先进的方法具有优越性能。

Mar, 2024

零样本遥感图像场景分类的深度语义视觉对齐

我们通过机器自动收集可视属性，并利用转换器中的自注意机制将局部图像区域关联起来，集成背景上下文信息进行预测，以解决远程感知场景分类中的零样本学习问题。通过广泛实验，我们展示了我们的模型在具有挑战性的大规模远程感知场景分类基准上优于其他最先进模型。

Feb, 2024

将广义语义知识嵌入到小样本遥感分割中

通过综合语义嵌入、稀疏支持示例和全局内容调制，我们提出了一种全新的远程感知图像少样本分割方法，该方法在标准少样本分割基准测试中显示出卓越性能，达到了最新的技术水平。

May, 2024

通过特征缩小和虚构的方式实现低样本视觉识别

本文提出了一个复杂图像的低 - shot 学习基准模型，并以此为基础，提出一种注重表示规范化技术和为数据稀少的类别提供虚拟训练数据的技术，客观比较了不同方法在低 - shot 学习中的表现，并成功将 ImageNet 数据集中基于 novel classes 的 one-shot 准确率提高了 2.3 倍。

Jun, 2016