- 预训练视觉语言模型中的伪提示生成,面向多标签医学图像分类
该研究介绍了一个新的提高医学图像识别性能的方法,利用预训练视觉 - 语言模型和伪提示生成来实现多标签分类和自动诊断,对比实验证明了其在多标签胸部放射图数据集上的卓越性能。
- 零样本学习的双重关系挖掘网络
通过引入 Dual Relation Mining Network (DRMN) 和 Dual Attention Block (DAB),该研究提出一种提高零样本学习的效果的方法,通过进行视觉 - 语义交互和学习属性之间的语义关系来实现共 - CICA:零样本文档图像分类中的内容注入对齐
我们在零样本学习(Zero-Shot Learning,ZSL)和广义零样本学习(Generalized Zero-Shot Learning,GZSL)的环境中提供了对文档图像分类进行全面分析的方法和评价,同时提出了适用于 RVL-CDI - 基于置信度加权的多方法集成在零样本图像分类中的应用
本文介绍了一种用于零样本学习(ZSL)的新型框架,该框架利用多模型和多对齐集成方法识别在训练过程中未见过的新类别,通过利用 ChatGPT 的广泛知识和 DALL-E 的强大图像生成能力创建能够准确描述未见类别和分类边界的参考图像,改善信息 - ESP-Zero: 无监督增强极稀疏点云的零样本分类
在本论文中,我们提出了一种无监督的模型自适应方法来增强用于处理极其稀疏点云的点云编码器,通过引入融合交叉注意力层和互补学习的自蒸馏方案,有效地改进点云特征并保持与文本嵌入的对齐,以提高处理这种极其稀疏点云的零样本分类能力。
- 广义零样本学习的双重专家蒸馏网络
通过引入 Dual Expert Distillation Network (DEDN) 方法以及 Dual Attention Network (DAN) 骨干网络,该研究在视觉属性建模方面实现了新的最先进水平。
- OmniSSR:零样本全向图像超分辨率利用稳定扩散模型
通过使用稳定扩散模型的图像先验,将全向图像超分辨率与保真度和真实感相结合,实现了零样本学习,无需训练或微调。在两个基准数据集上的实验证明了该方法的有效性。
- CREST: 跨模式共鸣的证据深度学习对于增强零样本学习
基于视觉 - 语义对齐和双向跨模态零样本学习方法的研究,通过属性描述和知识传递实现对新类别的识别,应对实际挑战并提高模型的鲁棒性和独特解释能力。
- CVPR基于渐进语义引导的视觉变形器用于零样本学习
我们提出了一种用于零样本学习的渐进式语义引导视觉 Transformer(ZSLViT),通过语义嵌入令牌学习改进视觉 - 语义对应关系,发现语义相关的视觉令牌,并且通过弱语义 - 视觉对应关系融合来舍弃与语义无关的视觉信息,从而在零样本学 - 多模态知识图谱的零样本关系学习
我们提出了一个新颖的端到端框架,包含三个组成部分:多模态学习器、结构整合器和关系嵌入生成器,以整合多样化的多模态信息和知识图结构,从而促进零样本关系学习。通过对两个多模态知识图的评估结果,证明了我们提出方法的卓越性能。
- 面向广义零样本学习的高判别属性特征学习
零样本学习(ZSL)旨在根据观察到的类别的语义知识,识别未接触过的新类别,然而,当前基于注意力的模型对于学习图像区域特征时,可能忽视了视觉特征的可转移性和属性定位的独特性。为了解决这些问题,我们提出了一种名为高辨别属性特征学习的创新方法(H - 基于扩散的零样本医学图像到图像转换用于跨模态分割
通过使用深度生成模型,本文提出了一种新颖的无监督图像转换方法,以实现零样本跨模态图像分割任务,并通过与其他生成模型的实证比较进行了验证。
- 零样本泛化的测试时间原型移动:与视觉语言模型
通过引入测试时间原型偏移(Test-Time Prototype Shifting,TPS)框架,我们在共享嵌入空间中调制每个类别的原型,动态地学习每个原型的偏移向量,从而弥合领域差距,提高分类准确性,并在减少资源需求的情况下取得创新性能的 - MolBind:语言、分子和蛋白质的多模态对齐
生物学和化学领域的最新进展已经利用多模态学习,将分子及其自然语言描述整合到药物发现中。然而,当前的预训练框架局限于两种模态,并且设计一个能够处理不同模态(如自然语言、2D 分子图、3D 分子构象和 3D 蛋白质)的统一网络仍具有挑战性。在这 - 通过视觉语言集成实现零样本人 - 物体交互检测
本研究提出了一种名为 KI2HOI 的新型框架,用于有效整合视觉语言模型的知识,从而改进零样本人物 - 物体交互检测。通过采用动词提取解码器将相应的动词查询转换为特定交互类别的表示形式,设计了基于视觉语义的动词特征学习模块。通过有效的加性自 - MENTOR:面向类推学习的多语言文本检测
我们提出了一种通用的多语言文本检测框架,可以在场景图像中检测和识别已知和未知语言区域,不需要为未知语言收集有监督的训练数据或进行模型重新训练。
- 利用先验知识和认知模型提升深度学习:关于增强可解释性、对抗鲁棒性和零样本学习的调查
对于实现对抗性防御、可解释的人工智能(XAI)和零样本或少样本学习,我们回顾了当前和新兴的知识驱动和启发式认知系统。数据驱动的深度学习模型在许多应用中取得了卓越的性能,并展示了超过人类专家的能力。然而,它们无法利用领域知识导致在实际应用中存 - MedFLIP:医学视觉与语言自监督快速预训练之基于掩码自编码器的方法
介绍了一种名为 MedFLIP 的快速语言 - 图像预训练方法,利用 Masked Autoencoders (MAEs) 和多模态数据进行了零样本学习,提高了医学诊断中从有限数据中学习的能力,通过实验证实了使用语言将提高医学图像分析的零样 - X-Shot:一个统一的系统,同时处理分类中频繁、少样本和零样本学习
在现实世界的背景中,频繁出现标签、少样本学习和零样本学习同时存在,为了实现实际部署的适应性,本文提出了一种新的分类问题 X-shot,并介绍了一种名为 BinBin 的解决方案,它通过指令跟踪结合自然语言处理任务的间接监督和大型语言模型提供 - 利用弱标注数据在混合代码 Hinglish 中进行仇恨言论检测:基于可行性驱动的迁移学习方法与大型语言模型
采用大语言模型(LLMs)进行很少标记的训练,结合零样本学习和少样本学习等方法,成功应用于 Hinglish 中的仇恨言论检测和粗细粒度的厌女症分类,研究表明使用 Bidirectional Auto-Regressive Transfor