- 走向人类级别的三维相对姿态估计:通用化、免训练、单个参考
用 RGB-D 参考图像的 2.5D 形状、现成可微分渲染器以及 DINOv2 预训练模型提取的语义线索为基础,无需标记和训练,提出了一种新颖的可推广的三维相对姿态估计方法,通过渲染与对比新的 RGB 和语义地图,实现了只需单个 RGB-D - 运动乐章:将静态图像转化为动态视频
通过将语义和动作线索整合到扩散模型中,我们引入了一种用于视频生成的新方法,它显著提升了视频质量、动作精度和语义连贯性。
- SAI3D:在 3D 场景中分割任意实例
SAI3D 是一种新颖的零样本三维实例分割方法,通过整合来自 Segment Anything Model (SAM) 的几何先验和语义线索,将三维场景划分为几何原语,然后逐步合并为与多视角 SAM 掩码一致的三维实例分割。通过具有动态阈值 - CVPRText2Scene:基于文本的室内场景风格化与局部细节
通过引用图像和文本描述,我们提出了一种名为 Text2Scene 的方法,可以自动创建由多个物体组成的虚拟场景的逼真纹理,这种方法在房间的标记三维几何体上增加了详细纹理,使生成的颜色尊重经常由类似材料组成的分层结构或语义部分。
- 金字塔语义图全局点云配准方法在低重叠度下的应用
提出了一种应用图论框架的全局点云配准方法,利用语义线索缩小点云规模解决点云之间重叠度低的问题,通过构建金字塔图进行多级一致性阈值匹配,用级联式梯度上升方法解决最密团问题,得到多个位姿候选项,并通过快速几何验证选择最佳估计。实验证明,尽管点云 - NLI 是否能为低资源生物医学关系提取提供适当的间接监督?
通过间接监督,将生物医学关系抽取转化为自然语言推理,利用语义线索减轻注释稀缺性,通过排名损失隐式地校准生物医学关系抽取中的模糊示例,避免模型在未知关系上的猜测,结合 NLI 知识与生物医学知识,可在全量和低资源环境下获得最佳性能提升。
- 具有一般监督信号的具身代理
利用 Scene Graph Contrastive (SGC) loss 来训练具有实际效果的体验式人工智能代理,其利用神经体系结构和自我监督目标以提高表现学习,即时不利于任务相关信息的编码。这种方法广泛适用且简单易行,可以鼓励代表的编码 - 基于距离的图像分类:生成分类难题的解决方案?
本文提出了一种新的基于生成模型的分类算法,可以通过层级生成过程和实例特定噪声项同时适应语义和非语义因素,从而实现通过定义语义来分类。该算法被称为距离分类器,与判别分类器不同的是,它可用于增量更新,适用于大量分类数据。
- 通过观看 YouTube 视频进行语义视觉导航
本文通过简单地观看 YouTube 视频,利用 Q-learning 对伪标记过的转移数据进行离线学习来获取语义线索,进而在视觉仿真中实现目标导航任务,相较于端到端 RL、行为克隆和传统方法,使用最少的直接交互能够获得相对提高 15-83% - 利用语义进行人脸图像去模糊
本文提出了一种使用深度卷积神经网络通过利用语义线索进行有效高效人脸去模糊的算法。该算法利用面部语义标签作为输入信息,并提出一种自适应结构损失来规范面部局部结构。实验结果表明,该方法在还原质量、人脸识别和执行速度方面的表现优于最先进的方法。
- 使用语义引导生成对抗网络将热成像映射到可见光人脸图像
本研究提出使用语义引导生成对抗网络(SG-GAN)从热成像中自动生成可见光人脸图像,并通过多种不同的损失函数进行控制以实现更好的可视化效果和性能,从而在多光谱人脸图像识别领域取得了有希望的结果。
- 基于语言的时间定位中的活动概念挖掘
该研究提出了一种用于在未剪辑的视频中进行基于语言的时间定位的新方法,该方法利用了语言查询和视觉模型之间的语义概念,以及利用活动分类器预测得分编码视觉概念,并且可以对滑动窗口进行回归定位。实验表明,该方法在 Charades-STA 和 TA - ECCVSegStereo:利用语义信息进行视差估计
本研究提出了一种利用语义线索修正传统视差计算算法预测的方法,通过语义特征嵌入和语义 loss 正则化优化来提高学习视差的效果,并在 SegStereo 模型中整合了自分割中获取的语义特征和引入语义 softmax loss 以提高视差图像预 - CVPR深度语义人脸去模糊
本文提出了一种通过深度卷积神经网络 (CNN) 利用语义线索来实现有效和高效的人脸去模糊算法。该算法通过全局语义先验作为输入,并在多尺度深度 CNN 中施加局部结构损失来规范输出,以训练具有感知和对抗性损失的神经网络,生成逼真的人脸去模糊结 - 倾斜 Stixels: 代表旧金山最陡峭的街道
提出了一种基于 Stixels 的紧凑场景表示方法,通过引入新的深度模型来克服了以前对 Stixels 具有限制性的几何假设,同时结合语义和深度特征在全局能量最小化公式中进行推断,并通过引入一种极其高效的超分割近似方案,实现了实时计算的能力 - 通过观察太阳和其他语义线索找到你的路
本研究介绍了一种利用自由可得的地图数据和语义线索构建的概率模型,从而实现精准的自我定位,该方法比忽略语义信息的竞争方法具有更快的定位速度,更少的计算和更强的鲁棒性。