- IFTD:用于驾驶场景中循环检测的图像特征三角描述符
提出了一种基于 STD 方法的快速、稳健的图像特征三角描述符(IFTD),旨在提高驾驶场景中地点识别的效率和准确性,通过从点云的 BEV 投影图像中提取关键点并将其构造成三角描述符,通过匹配这些特征三角形,实现了精确的地点识别,并计算了两个 - 通过生成式预训练学习长形式视频首选权
通过使用视觉位置如边界框和关键点来表示视频中的关键信息,我们的方法利用生成式预训练技术(GPT)对长时视频进行学习,证明了其在长时视频先验学习中具有巨大潜力。
- 预训练扩散模型的无监督关键点
利用文本到图像扩散模型的新知识,我们的核心思想是找到使生成模型始终关注图像中的紧凑区域(即关键点)的文本嵌入。通过优化文本嵌入,使去噪网络内的交叉注意力图定位为具有小标准差的高斯分布,我们在多个数据集上验证了性能,包括 CelebA、CUB - 使用局部图神经网络学习基于视觉的可变形物体重新排列
通过建立 keypoints 和它们之间的相互作用的一组动态图表达的新颖表示策略,提出一种在视觉观测的情况下模拟可变形对象重新排列动态并推断最佳操纵动作的方法。新方法在模拟实验中显示出优越的表达能力,在各种可变形重新排列任务中的成功率远高于 - 学习更好的多物体六自由度姿态估计关键点
通过训练图网络选择一组分散但具有相似分布投票的关键点,从而提高姿势估计的准确性和效率。通过回归网络学习关键点算法,所学习的投票可以与之前的启发式算法相比更准确地回归关键点位置。实验结果表明,KeyGNet 选择的关键点在所有七个数据集上的所 - ICCVSC3K: 自监督的、一致性的 3D 关键点估计方法,适用于旋转、噪声和降采样的点云数据
提出了一种新方法来从噪声、降采样和任意旋转的实际场景中对任意对象类别进行关键点推断的方法,该方法是完全无监督的,关键点位置误差低,对点云数据扰动具有弹性,关键点保持其索引的语义一致性,且靠近点云数据表面,并在对象的三维形状下游任务中具有改进 - 学习时空语义对应关系
本论文提出了一个新的任务,即在视频中预测时空语义对应关系,为视频理解提供了新的思路,并且通过对两个现有基准数据集:Penn Action 和 Pouring 进行了注释和实验,最终得出了结论:最佳方法应综合考虑时空因素,而不是分别处理时间对 - 通过关键点实现多模态配准的稳健且可解释的深度学习框架
KeyMorph 是一种基于深度学习的图像配准框架,其利用检测到的对应关键点获取最佳变形,以及解决了目前图像配准中的一些问题。该框架在多模式脑 MRI 扫描的 3D 仿射和样条配准中展现出了超越当前最先进方法的准确性。
- KGNv2: 基于关键点的 RGB-D 输入 6 自由度抓取综合中的比例和姿态预测分离
该论文提出了一种基于关键点的新型 6 自由度抓取姿态合成方法,其中关键点检测器减少了对精确关键点估计的依赖,并且在简单的合成对象上进行训练的实验表明,该方法具有模拟到真实的能力。
- CVPRFeatureBooster: 用轻量级神经网络增强特征描述子
我们介绍了一种轻量级网络,用于提高同一图像中关键点描述符的准确性,并在图像匹配、视觉定位和结构运动任务中进行评估,结果显示我们的方法显著提高了每项任务的性能,特别是在具有挑战性的情况下,例如大的照明变化或重复图案。
- AutoLink: 通过关键点链接实现人体骨骼和物体轮廓的自监督学习
本文提出一种基于自监督学习的方法,通过使用由直线相连的 2D 关键点图解开结构与外观的耦合,进而学习物体的结构表达,并利用所学习的结构表达实现自动人体姿态估计等任务。
- ECCVKeypointNeRF:使用关键点相对空间编码广义图像体化人物
本文提出了一种新的人体建模方法,使用稀疏 3D 关键点编码相对空间 3D 信息,并在头部重建方面超过先前的最先进方法。同时也在人体重建方面性能可与参数化模型与时间特征聚合的先前工作相比拟,实验结果表明提出方法的高保真度建模指向了一个新的方向 - 快速准确的关键点匹配的高效线性注意力
本文提出了一种基于 Transformer 的 3D 视觉应用中的线性注意力机制,通过全局和局部信息聚合进行关键点匹配,同时提出了联合学习来简化和加速特征匹配,最终在几个基准测试中取得了具有竞争力的性能。
- CVPR人体肢体自由选择关键点识别
该论文提出一种基于视觉变换器 (Vision Transformer) 的方法,通过改变固定集合中的关键点来扩展人体姿态估计模型对任意关键点的检测能力。该方法基于 TokenPose 架构,针对固定关键点的 Token 进行替换,可以检测出 - CVPRGANSeg: 通过无监督分层图像生成学习分割
本文提出了一种基于生成对抗网络的方法,以隐式关键点作为上下文条件,生成与引导图像细分任务对应的掩模图像。该方法不仅不需要对数据进行标注,而且还可以提高系统对视角和目标位置变化的容忍度。通过生成图像 - 掩模对,本文所提出的方案在公认的基准测 - ICCV通过注意力将关键点分组以实现多人姿态估计的关注中心
本研究介绍了 CenterGroup,这是一种基于注意力机制的框架,用于从一组身份不可知的关键点和人物中心预测中估计人体姿势。我们的方法使用 transformer 为所有检测到的关键点和中心获取上下文感知嵌入,然后应用多头注意力直接将关节 - ICCV关键点社群
用快速的自下而上的方法,结合图形中心性度量对人类或物体上的 100 多个关键点进行检测,为硬件和人物建模,量化关键点的独立性,将训练权重分配给不同部位的姿势。经实验证明该方法优于以往的所有人体姿势估计方法,而且具有很好的泛化性能。
- ICCVHRegNet:一种用于大规模室外 LiDAR 点云对齐的分层网络
本文提出了一种用于大规模室外激光雷达点云注册的高效分层网络 HRegNet,其中使用分层提取的关键点和描述符进行注册,并结合深层可靠特征和浅层精准位置信息以实现稳健和精确的注册。 通过对两个大规模室外 LiDAR 点云数据集进行广泛实验,证 - CVPR潜空间操纵的代理梯度场
本文提出了一种基于替代梯度场算法的方法,通过操纵关键点和说明文字等多维条件,搜索新的潜在编码,使得编辑后的图像符合目标条件。实验结果表明该方法在人脸属性调整任务方面表现优异,能够更好地处理图像属性的分离问题。
- ICCVTokenPose:学习人体姿势估计的关键点标记
本文提出了一种基于 Token 表示的人体姿态估计方法(TokenPose),该方法可以通过学习图像中的外貌线索和约束关系来对关键点进行显式嵌入,与现有 CNN 方法相比,TokenPose 在参数和 GFLOPs 等方面均有所减少,但仍然