基于视觉 transformer 的多头自注意力机制用于零样本学习
本文提出了隐式和显式注意机制来解决零样本学习模型中现有偏差问题,其中隐式注意机制采用自监督图像旋转任务来聚焦于特定的图像特征,显式注意机制则借助 Vision Transformer 模型中的多头自注意机制来将图像特征映射到语义空间。实验结果表明,该注意机制的性能得到了验证,其在 AWA2、CUB 和 SUN 等三个流行数据集上的表现均为最佳。
Oct, 2021
本研究提出了一种名为 TransZero 的基于属性引导的 Transformer 网络,用于零样本学习中的视觉语义交互,以提高视觉特征的可转移性和判别属性定位,并在三个 ZSL 基准测试中取得了最新的最佳结果。
Dec, 2021
本文提出一种利用语义 / 属性空间的区域表示来实现无监督学习的方法,其中区域表示的本地化是隐式的。本方法具有高度的可解释性,能够取得 CUB 和 SUN 数据集上的最新性能以及在 AWA2 数据集上优于一般性能更复杂的方法。
Jun, 2020
使用属性引导变压器构建的 TransZero ++ 神经网络通过语义协作学习,从视觉特征中定位每个属性在所给图像中最相关的区域,并学习视觉属性特征,解决零样本学习中头现类别识别问题,取得了三项挑战性的零样本学习基准测试中的最新最好结果。
Dec, 2021
在零样本学习中,结合由类级属性指导的目标定向注视估计模块(GEM),本文通过预测人眼凝视位置来改善较强的属性定位,同时通过学习任务相关注意力和回归局部属性特征来优化全局图像特征;在实验中验证了该方法的竞争优势以及在属性定位方面的准确性,并表明人类凝视数据集和自动注视估计算法对于高级计算机视觉任务的潜在益处。
Mar, 2021
我们提出了一种用于零样本学习的渐进式语义引导视觉 Transformer(ZSLViT),通过语义嵌入令牌学习改进视觉 - 语义对应关系,发现语义相关的视觉令牌,并且通过弱语义 - 视觉对应关系融合来舍弃与语义无关的视觉信息,从而在零样本学习中实现准确的视觉 - 语义交互作用,我们的 ZSLViT 在 CUB、SUN 和 AWA2 等三个常用基准数据集上取得了显著的性能提升。
Apr, 2024
本文提出一种新的传输零样本学习方法,该方法使用生成对抗网络从未见过的特征提取出语义属性,并将其融合到产生模型中,从而捕获未见类别内的细微差异,合成更具辨别能力的特征。在五个标准基准测试中,本方法取得了零样本学习的最新成果。
Mar, 2023
本文提出一种基于双向映射的语义关系建模方案,实现跨模态的知识转移并解决领域转化问题,通过迭代更新使得分类器不断加强预测能力,实验结果在三个基准数据集上显著优于现有方法。
Mar, 2017
我们通过机器自动收集可视属性,并利用转换器中的自注意机制将局部图像区域关联起来,集成背景上下文信息进行预测,以解决远程感知场景分类中的零样本学习问题。通过广泛实验,我们展示了我们的模型在具有挑战性的大规模远程感知场景分类基准上优于其他最先进模型。
Feb, 2024
通过使用 Composition Transformer(CoT)框架,我们提出了一种简单可扩展的方法来解决组合式零样本学习(CZSL)中的上下文问题、视觉特征可辨识性问题和真实世界组合数据的长尾分布问题;CoT 框架通过底层的自下而上方式提取代表性的物体嵌入,并通过顶层的自上而下方式以一种显式建模上下文性的对象引导注意力模块生成代表性的属性嵌入;我们还开发了一种简单的少数类属性增广(MAA)方法,通过混合两张图像和过采样少数类属性来合成虚拟样本,以解决不平衡的数据分布所引起的预测偏差;我们的方法在多个基准测试集上达到了最先进的性能,包括 MIT-States,C-GQA 和 VAW-CZSL;此外,我们还展示了 CoT 在提高视觉辨识能力和解决因不平衡数据分布而引起的模型偏差方面的有效性。
Aug, 2023