学习分层组合形状词汇以进行多类物体表示
提出了一种基于图论的方法,用于在由部分组成的分层组合架构中表示对象形状,通过统计模型和最小描述长度原则,在受限制的形状单词表达中学习形状的描述,并将内部数据表示与发现的子结构压缩来构建部分组成。在六个基准二维形状图像数据集上验证了该方法。实验证明,Compositional Hierarchy of Parts(CHOP)可以使用部分共享和索引机制快速推断出形状组成,并提供比现有技术更好的形状检索性能。
Jan, 2015
我们提出了一种新的多对象跟踪的视觉分层表示范式,并通过关注对象的组合性视觉区域和与背景的对比背景信息,不仅仅局限于语义可视线索(如边界框),而是更有效地区分对象。这种组合性 - 语义 - 上下文层次结构灵活地集成到不同的基于外观的多对象跟踪方法中。我们还提出了一种基于注意力的视觉特征模块来融合分层视觉表示。该方法在多个多对象跟踪基准中实现了最先进的准确性和时间效率。
Feb, 2024
该研究提出了一种基于分层组合模型 (HCMs) 的结构学习框架,旨在解决现有方法在物体结构和训练数据方面的限制,并通过背景模型将前景 - 背景分割问题整合到结构学习任务中,在只使用类别标签的情况下采用贪婪的结构学习方法确定层次结构的层数和每层的零件数量。该方法得出的 HCMs 具有语义意义,此外,在标准迁移学习数据集上,HCMs 在物体分类方面的表现是有竞争力的。
Jan, 2017
本文提出的深度潜变量模型 RICH 能够通过无监督学习来学习可解释的组成层次结构,并通过自上而下的方法使用高层表示来指导低层分解,在包含多个具有不同部分构成的对象的图像中,我们证明 RICH 能够学习潜在的组成层次结构并生成虚拟场景。
Oct, 2019
通过引入简单的正则化技术以及利用类别级别属性注释对神经网络进行特征空间分解,本工作试图弥合深度学习模型与人类学习之间的鸿沟,证明组合表示的价值并展示少量样本即可学习新类别的分类器。
Dec, 2018
本论文提出了一种基于结构化语义布局的图像操作分层框架,使用户可以通过添加、删除和移动一个边界框来对图像进行对象级别的操作。实验证明,该分层框架可以在语义对象操作、交互式图像编辑和数据驱动的图像操作等方面带来优势。
Aug, 2018
本文提出一种用于视觉与语言之间学习共同表示空间的模型,通过组合语义上的含义并不需要显式位置监督,将文本的复合性约束在视觉领域中,并通过空间变换器以及一种表示学习的方法,学习将图像分成分别编码的补丁,以可解释的方式将视觉和文本表示相结合,该模型能够执行弱监督对象检测,并展示了其对未见对象组合的外推能力。
Jun, 2022
本文介绍了一种基于层次化视觉数据结构的图像分类方法,该方法利用层次聚类创建了可变长度的视觉树,从而更准确地进行分类。该方法在 ILSVRC2010 和 Caltech 256 基准数据集上获得了显著更好的分类准确率。
Sep, 2017
学习组合表示是目标为中心的学习的关键方面,它实现了灵活的系统化推广并支持复杂的视觉推理。然而,大多数现有方法依赖于自编码目标,而复杂性通常是由编码器中的架构或算法偏差隐含地施加的。本研究中,我们提出了一种新的目标,明确促进这些表示的复杂性。我们的方法基于现有的目标为中心的学习框架(例如,槽关注)构建,并加入了额外的约束,使得来自两幅图像的任意对象表示混合有效,通过最大化复合数据的似然性。我们证明将我们的目标融入现有框架可以持续改善客观为中心的学习,并增强对架构选择的鲁棒性。
May, 2024
我们提出了一种将 CLIP 与图表示学习相结合以更深入地利用分层类结构的新框架(HGCLIP),通过将类层次结构构建成一个图,其中其节点代表每个类别的文本或图像特征,通过图编码器,文本特征结合了分层结构信息,而图像特征通过注意机制强调了从原型派生的类别感知特征,我们的方法在通用和细粒度视觉识别基准上均取得了显著的改进。
Nov, 2023