通过相对位姿来实现的视觉定位方法中,经典的基于特征点的方法具有最好的表现,替换为深度学习的方法后其性能不佳,本文分析了原因并给出了未来工作的建议。
Aug, 2019
这篇研究报告探讨了视觉和语言推理需要对视觉概念、语义和语言基础以及两种模式之间的相互作用进行感知,并评估了现有的 Vision-and-language 模型对于空间理解的忠实度。研究者提出了两个目标,利用现成的深度估计器,设计了关于三维空间推理的代理任务来训练 Vision-and-language 模型,使得在视觉问答挑战中取得了显著的表现改善。
Sep, 2021
本文提出了一种基于物体对位置深度挖掘的视觉关系检测框架,通过使用 Gated Graph Neural Network 获取谓词间的相关性。在数据集 VRD 和 VG 上的实验结果表明,相对位置信息的挖掘和利用可以显著提高模型的性能。
Nov, 2019
本论文提出了一种使用本地坐标框架诱导几何图的旋转平移不变性和定义各向异性过滤器的方法,以建模交互动力系统,并在交通场景、三维运动捕捉和碰撞粒子实验中表现出优异的性能,超越了目前的最新技术水平。
Oct, 2021
本文提出了一种利用二阶优化方法显著减少坐标网络训练时间并维护其可压缩性的解决方案,并在各种信号模态(如音频、图像、视频、形状重构和神经辐射场)上证明了其有效性。
May, 2023
本文提出了一种基于距离度量学习的端到端方法来推广空间关系,通过训练神经网络将对象的 3D 点云转换为捕捉所述空间关系相似性的度量空间,使用梯度优化来计算物体姿态来模仿任意目标关系,实验结果表明该方法使机器人能够在未知对象上推广空间关系。
Jul, 2017
该论文研究应用于感知任务的深度网络的归因问题,并提出了一种名为 “Blur Integrated Gradients” 的新技术,该技术比其他方法具有多个优点,可以准确识别物体并产生一致且干净的解释,适用于图像,视网膜病变和音频事件等多个任务。
Apr, 2020
当前计算机视觉系统在识别实物基础空间关系方面的性能较差,通过提出了精确的关系定义以允许对基准数据集进行一致的标注,并利用 Transformer 模型的长程注意力能力对这一任务提出新的方法进行评估。我们提出了一种名为 “RelatiViT” 的简单架构,并证明其胜过所有当前方法,这是第一种在实际场景中令人信服地优于朴素基准的空间关系预测方法。
Mar, 2024
本研究研究了解决特征对应问题中的图案重复问题,并提出了一种新的锚点到重心坐标编码方法来生成多个仿射不变的对应坐标,实验表明该方法可以提高匹配质量并在 CVPR 2021 的第三届图像匹配挑战赛中获得竞争性表现。
Jun, 2023
使用一维卷积神经网络的回归模型,可以精确而稳健地确定计算机断层扫描图像的相对位置,与现有技术相比表现出更优异的效果,平均误差只有 1.69 厘米。
Nov, 2017