- VastTrack:广阔类别的视觉目标跟踪
通过引入一个名为 VastTrack 的新型基准,本文旨在促进更加通用的视觉跟踪算法的发展,包括丰富的类别和视频,它具有大量目标类别、更大的规模、丰富的注释等吸引人的特性。
- HGCLIP:基于图表示的层次理解视觉 - 语言模型的探索
我们提出了一种将 CLIP 与图表示学习相结合以更深入地利用分层类结构的新框架(HGCLIP),通过将类层次结构构建成一个图,其中其节点代表每个类别的文本或图像特征,通过图编码器,文本特征结合了分层结构信息,而图像特征通过注意机制强调了从原 - CVPRFew-shot 几何感知关键点定位
本文提出了一种基于 Few-shot learning 的填充关键点标注鲁棒性方法,通过少数的半监督数据和大量的自监督数据,在各种不同的物体类别中实现了语义一致的关键点定位和更准确的 3D 几何重建局部特征的二维定位。
- ECCVOOD-CV: 自然图像个体干扰鲁棒性的离群分布偏移基准
本文引入 OOD-CV 数据集,并发现某些干扰因素有更强烈的负面影响;当前的提高鲁棒性的方法只有微弱的效果,甚至可能削弱鲁棒性;我们的数据集提供了一个丰富的测试床,以研究鲁棒性,并有助于推进这一领域的研究。
- ICCV新类别发现的统一目标
本文旨在研究通过使用已标记类别的先前知识来推断未标记集合中的新物体类别的新类发现问题。我们引入了一个称为 UNO 的统一目标函数,以利用多视角自标记策略生成伪标签以了解已知和未知类别,从而克服了现有方法中的问题,并在几个基准测试中显着优于现 - DeepSym: 无监督连续机器人交互的深度符号生成与规则学习用于规划
该研究提出了一种基于行为细分、离散对象与效果类别的概率规则方法来进行非平凡的行为规划,并在机器人操作中实现了多步对象操作。
- 基于布局的属性引导图像生成
该论文提出了一种基于属性控制的图像生成方法,该方法可以在实例级别实现对象外观的控制,并利用多种损失函数协作工作来提高生成图像的准确性、一致性和多样性,在 Visual Genome 数据集上的实验证明了该模型的能力,并证实了从布局任务中解耦 - ICCV细粒度图像分类的现存地理先验
提出了一种高效的时空先验模型,通过考虑地理位置和时间等因素,建立对象在空间和时间上的分布概率模型,进而提高图像分类性能。
- 无监督学习使用深度非刚性运动结构的全解缕的三维可塑模型的抬升自编码器
介绍了一种新的 3D 表面基础的物体类别生成模型 - Lifting Autoencoders,该模型结合了非刚性结构运动、图像形成和形态模型等的思想,能完全无监督地从非结构化的图像集中学习可控、几何的 3D 类别生成模型,并使用可微渲染器 - CVPR无监督图像匹配和物体发现的优化
本研究旨在通过解决一个适当的优化问题,对图像集合中的对象类别进行无监督发现和匹配,以应对日益增长的人工注释工作量和服务特定应用的需求。在多个基准测试中,我们的方法证明了其价值。
- ICLR从人类行为中揭示可解释的对象表示
通过人类行为判断对 1854 个物体类别的图像进行稀疏、非负表示,找出表达分类、功能和感知属性程度的低维嵌入的尽可能解释人类行为判断可变性的潜在相似性结构,从而展示了这些嵌入形态在阐释人类概念物体表示方面的预测能力。
- FineGAN:细粒度对象生成和发现的无监督分层解缠模型
本论文提出了一种名为 FineGAN 的新型无监督生成对抗网络框架,旨在实现对细粒度物体类别进行分层次生成。FineGAN 采用信息理论将三种因素(背景、目标形状、目标外貌)与潜在代码相关联,并以特定方式进行编码,从而实现所需层次关系,并通 - MM从共同出现的物体类别的角度分析物体检测器
本研究基于特殊遮盖的 MS COCO 数据集,对目前最先进的 Faster R-CNN 和 YOLO 目标检测器的准确性进行评估和比较,以衡量它们的预测有多少依赖于编码在对象类别级别上的上下文信息。研究结果表明,当前检测器通常不会在类别级别 - ACL目标计数!将明确检测返回图像字幕
通过利用显式目标检测器提供的语义信息,我们探索了从这些检测中可以得到的各种提示,揭示了端到端图像字幕系统如何使用图像表示匹配生成电影字幕,并揭示了不同对象类别如何在图像字幕中发挥着不同的作用。
- NIPS通过密集等变图像标注进行无监督的物体帧学习
本文提出了一种基于视点分解的新方法,可以从视觉测量中提取抽象模型和目标类别的密集物体中心坐标系,并配有密集等变标记神经网络,可以将图像像素映射到对应的目标坐标系,这种方法可以适用于肢体简单目标和人脸等可变形物体,而不需要手动监督。
- ICCV分解空间嵌入实现物体标志无监督学习
本文提出了一种使用深度神经网络在无监督条件下发现和学习物体类别中的标志的新方法,从而表征它们的结构。我们还展示了这种学习出的标志建立了不同对象实例之间的有意义的对应关系,并可以与高精度回归手动注释的标志。
- ADE20K 数据集场景语义理解
本研究介绍并分析 ADE20K 数据集及其相关的 Cascade 分割模块,用于场景解析并在语义分割网络中实现显著提升。同时,发现在 ADE20K 数据集训练的场景解析网络可以应用于各种不同场景和对象。
- 探索图像中的因果信号
该研究通过学习方法建立了一个分类器来有效地区分静态图像中物体特征和其背景特征,从而实现了揭示物体类别中因果属性存在的可观测足迹的目标。
- NIPS揭示词嵌入的梦想:走向语言驱动的图像生成
本研究介绍了一种基于语言的图像生成方法,可以根据单词嵌入语义内容生成自然图像,并且采用两个映射函数实现,该方法在几个用户研究中证明其产生的图像可以捕捉编码在单词嵌入中的概念的一般视觉特性,例如颜色或典型环境,足以区分对象的一般类别。