适用于少样本细粒度识别的跨模态幻象技术
通过利用语义关系引导双视图数据幻影,为小样本图像识别提供更多样化和合理化的新数据样本,该框架能通过从基础类别中进行有效的信息传递生成新颖类别的样本。其中,实例视图数据幻影模块利用基础类别的局部语义相关注意力和全局语义特征融合生成新颖类别的每个样本;原型视图数据幻影模块利用语义感知度量来估计新颖类别的原型和相关分布,从而实现对大量样本的重新采样,提高样本的稳定性。通过在几个常用的小样本数据集上与最先进的方法进行了广泛的实验和比较,验证了该框架的有效性。
Jan, 2024
提出了一个新颖的少样本生成框架,Hallucinated Audio-Visual Embeddings-Network (HAVE-Net),用于远程感知数据中音频和视觉模态的元训练和分类,在 ADVANCE 和 AudioSetZSL 数据集上的实验结果表明,通过幻觉模态扩充策略进行少样本分类的分类器性能至少比使用真实多模态信息进行训练的分类器性能高出 0.8-2%。
Sep, 2023
介绍 M-HalDetect,一个用于训练和评估幻觉检测和预防模型的多模态幻觉检测数据集。使用 Fine-grained Direct Preference Optimization 和拒绝抽样方法,成功减少了幻觉率,为视觉问题回答任务提供了重要的改进。
Aug, 2023
本文提出了一种基于元学习和数据幻觉的元幻觉框架,旨在解决医学图像分析中标签稀缺和领域转移问题,尤其是在少样本场景下,通过数据幻觉和交叉域知识传递来增强性能。对跨模态心脏分割的广泛实验表明,该方法在少样本无监督领域自适应情况下比其他方法表现更出色。
May, 2023
本文提出一种新的跨模态检索方法,利用生成式模型学习多模态数据的全局和本地特征,从而在 MSCOCO 数据集上实现了最先进的跨模态检索结果。
Nov, 2017
本文提出了一种机制,可以根据待学习的新图像类别自适应地从视觉和语义两方面结合信息,通过一系列实验表明,这种自适应组合可以在所有基准和 few-shot 情景上大幅优于当前单模态学习方法和模态对齐方法,特别是在少样本的情况下。
Feb, 2019
本文提出了一种基于多视角深度生成性框架的新方法,通过多模式专用生成网络对多模态情感数据的统计关系进行建模,基于高斯混合分布对共享潜在变量的后验分布进行假设,以解决单一模式情感数据识别困难、手动注释代价高昂、情感数据存在缺失模态问题等问题,并在两种真实的多模态情感数据集上进行了实验验证。
Jul, 2018