适用于少样本细粒度识别的跨模态幻象技术

CVPRJun, 2018

适用于少样本细粒度识别的跨模态幻象技术

Cross-modal Hallucination for Few-shot Fine-grained Recognition

Frederik Pahde, Patrick Jähnichen, Tassilo Klein, Moin Nabi

TL;DR提出一种基于深度学习的多模态方法，通过有意义的联合嵌入来弥合模型训练中数据不足的信息差距，并通过跨模态数据幻觉框架提出了一个区分性文本条件生成对抗网络，改进了基于 CUB 数据集的一、二、五次学习的模型准确性。

Abstract

State-of-the-art deep learning algorithms generally require large amounts of data for model training. Lack thereof can severely deteriorate the performance, particularly in scenarios with fine-grained boundaries between categories. To this end, we propose a →

deep learning multimodal approach joint embeddings sample generation cub dataset

发现论文，激发创造

多模态原型网络用于少样本学习

该论文提出了一种跨模态特征生成框架，利用文本数据来弥补计算机视觉任务中数据稀缺的不足，进而提高分类结果，并在实验中证明该方法的有效性。

Nov, 2020

基于语义关系引导的双视角数据超分辨率方法用于少样本图像识别

通过利用语义关系引导双视图数据幻影，为小样本图像识别提供更多样化和合理化的新数据样本，该框架能通过从基础类别中进行有效的信息传递生成新颖类别的样本。其中，实例视图数据幻影模块利用基础类别的局部语义相关注意力和全局语义特征融合生成新颖类别的每个样本；原型视图数据幻影模块利用语义感知度量来估计新颖类别的原型和相关分布，从而实现对大量样本的重新采样，提高样本的稳定性。通过在几个常用的小样本数据集上与最先进的方法进行了广泛的实验和比较，验证了该框架的有效性。

Jan, 2024

HAVE-Net: 基于虚拟的音频 - 视觉嵌入的少样本分类方法

提出了一个新颖的少样本生成框架，Hallucinated Audio-Visual Embeddings-Network (HAVE-Net)，用于远程感知数据中音频和视觉模态的元训练和分类，在 ADVANCE 和 AudioSetZSL 数据集上的实验结果表明，通过幻觉模态扩充策略进行少样本分类的分类器性能至少比使用真实多模态信息进行训练的分类器性能高出 0.8-2%。

Sep, 2023

大型视觉语言模型中的幻觉检测与预防

介绍 M-HalDetect，一个用于训练和评估幻觉检测和预防模型的多模态幻觉检测数据集。使用 Fine-grained Direct Preference Optimization 和拒绝抽样方法，成功减少了幻觉率，为视觉问题回答任务提供了重要的改进。

Aug, 2023

基于显著性引导的样本幻觉小样学习

该研究使用显著性图提出了一种新颖的、低成本的数据增强方法，借此在数据稀缺情况下改进少样本学习的性能，并且在公共数据集上实现了最新的技术水平。

Apr, 2019

元幻影生成器：迈向小样本跨模态心脏图像分割

本文提出了一种基于元学习和数据幻觉的元幻觉框架，旨在解决医学图像分析中标签稀缺和领域转移问题，尤其是在少样本场景下，通过数据幻觉和交叉域知识传递来增强性能。对跨模态心脏分割的广泛实验表明，该方法在少样本无监督领域自适应情况下比其他方法表现更出色。

May, 2023

多模态帮助单模态：利用多模态模型进行跨模态少样本学习

通过跨模态训练，结合视觉和语言信息，利用少量的训练样本和类名，建立了一个更好的狗狗分类器，并构建了第一个音视频少样本学习基准。

Jan, 2023

通过生成模型改进文本 - 视觉交叉检索：观察、想象和匹配

本文提出一种新的跨模态检索方法，利用生成式模型学习多模态数据的全局和本地特征，从而在 MSCOCO 数据集上实现了最先进的跨模态检索结果。

Nov, 2017

自适应交叉模态少样本学习

本文提出了一种机制，可以根据待学习的新图像类别自适应地从视觉和语义两方面结合信息，通过一系列实验表明，这种自适应组合可以在所有基准和 few-shot 情景上大幅优于当前单模态学习方法和模态对齐方法，特别是在少样本的情况下。

Feb, 2019

不完整多模态情感数据的半监督深度生成建模

本文提出了一种基于多视角深度生成性框架的新方法，通过多模式专用生成网络对多模态情感数据的统计关系进行建模，基于高斯混合分布对共享潜在变量的后验分布进行假设，以解决单一模式情感数据识别困难、手动注释代价高昂、情感数据存在缺失模态问题等问题，并在两种真实的多模态情感数据集上进行了实验验证。

Jul, 2018