object localization | BriefGPT

关键词object localization

搜索结果 - 90

利用几何接触渲染从第一次接触中感知物体姿态
本文提出了一种基于模拟的感知模型，可以从单个触觉观察中定位物体的姿态，同时可以推断姿态分布和与其他感知系统或多个接触的约束。
PDF4 years ago
AAAICIA-SSD: 自信 IoU 感知的基于点云的单阶段目标检测器
本文介绍了一种名为 CIA-SSD 的新型单级检测器，它通过自适应融合高级抽象语义特征和低级空间特征进行准确的边界框和分类置信度预测，并在此基础上设计了 IoU-aware 置信度矫正模块和 Distance-variant IoU-wei
PDF4 years ago
基于自监督视听匹配的区分性声音目标定位
本研究提出了一种两阶段学习框架，利用单一场景下的候选声音定位结果来学习鲁棒的对象表示，并通过引用预学习的对象知识生成了类感知对象本地化映射，在各种混音声音场景下选择声音和视觉对象类别分布的匹配，其中视听一致性被视为自我监督信号。实验结果表明
PDF4 years ago
弱监督显著实例检测
本文提出了第一种基于弱监督学习的显著性实例检测方法，利用分类和子计数信息分别作为两个分支，通过融合三个分支的信息来产生显著性实例地图。实验证明该方法相比于基于相关任务的基线方法表现良好。
PDF4 years ago
MM使用 2D 估计进行 3D 物体定位的计算机视觉应用
该论文提出了一种基于姿态估计和相机校准的物体定位技术，该技术利用多个物体的 2D 图像估计 3D 坐标以进行相机校准，并采用变换策略从 2D 图像中估计 3D 姿态。
PDF4 years ago
ECCV卷积神经网络的通用可视化方法
本研究提出了一种不需要结构性改变或微调卷积神经网络的方法，利用 L2-CAF 作为一种注意力滤波器，从而实现检索网络的注意力可视化，实现了在物体定位方面的最先进研究成果。
PDF4 years ago
ECCV视觉对话的猜测状态跟踪
本文提出了一种猜测状态跟踪的猜测模型，用于 GuessWhat？！任务中的视觉定位和对话，以改善现有的猜测器，如 Guesser 的精度，实验结果显示，该模型在现有模型中表现最佳，猜测成功率达到 83.3％，接近人类的 84.4％。
PDF4 years ago
ICCV利用立体声音进行自监督的移动车辆跟踪
该论文提出了一种利用未标记的音频 - 视觉数据进行物体定位的系统，使用自监督方法来实现跨模态的语音定位，其在声学车辆跟踪数据集上表现卓越并可用于光照条件不佳的车辆视觉定位。
PDF5 years ago
CVPR一种用于指代表达理解的实时跨模态相关性滤波方法
本论文提出了一种新的 Realtime Cross-modality Correlation Filtering 方法 (RCCF)，将指称表达理解重新表述为一种相关滤波过程，使得物体的定位更准确，在 RefClef、RefCOCO、Ref
PDF5 years ago
Smooth Grad-CAM++: 深度卷积神经网络模型增强推理可视化技术
本文介绍了一种叫做 Smooth Grad-CAM++ 的新方法，用于可视化神经网络内部的决策过程并解释其输出，该方法在多种场合下表现出更优秀的效果，特别是在物体定位和图像分类方面。
PDF5 years ago
ICCVCap2Det: 学习放大弱标注的图像对象检测
使用文本描述来训练文本分类器，并从中获取足够的信息进行目标实例的弱监督检测，从而实现对于大量自由上传图像信息数据的有效物体定位。
PDF5 years ago
MM基于视觉的机器人手爪抓取技术综述：从物体定位、姿态估计到夹爪预测
本文针对基于视觉的机器人抓取进行了综合调查，总结了视觉基于机器人抓取的三个关键任务：物体定位、物体位姿估计和抓取估计，并详细介绍了这些任务中的传统方法和最新的基于 RGB-D 图像输入的深度学习方法，并总结了相关数据集和最先进方法之间的比较
PDF5 years ago
弱监督目标检测的最小熵潜变量模型
本文提出了一种用于弱监督目标检测的 MELM 模型，其中使用最小熵作为模型并在学习期间度量目标定位的随机性，通过提出团簇分区、对象簇发现和对象定位三个组件进行优化，利用循环学习算法进行优化，在弱监督目标检测、弱监督目标定位和图像分类方面较现
PDF5 years ago
SIXray：一种用于重叠图像中发现禁止物品的大规模安全检查 X 射线基准
介绍一个名为 SIXray 的大规模数据集以及处理该数据集中目标检测困难的方法 class-balanced hierarchical refinement（CHR），可以用于安全检查中的物品检测和定位。
PDF6 years ago
邻域监视：基于语言引导图注意力网络的指代表达理解
该论文介绍了一种基于图形注意力机制的自然语言处理方法，用于解决指代表达理解问题并确定图像中对象的本地化，实验表明该方法具有优势。
PDF6 years ago
ICCV隐藏和寻找：一种用于弱监督定位及其它的数据增强技术
Hide-and-Seek 是一种通用的数据增强技术，它可以在各种视觉识别任务中提高网络性能，尤其在弱监督定位方面具有优势。其核心思想是将训练图像中的一些信息随机隐藏，从而迫使网络寻找其他相关内容，而这项技术不仅仅适用于图像定位，也可用于视
PDF6 years ago
基于数据的暗场景恢复闪光摄影
本研究使用消费级相机，通过结合传统几何理解和数据驱动技术，提出一种新的方法，实现了在拐角处定位和识别目标物体；该方法还能够用于在新视点生成被遮挡的场景，并能够通过分析信息分布，精确定位和识别超出拐角范围的物体。
PDF6 years ago
ECCV弱监督物体定位自产引导
该研究提出了一种基于自产引导（SPG）蒙版的弱监督目标定位方法，使用 SPG 蒙版提供像素的空间相关信息，作为辅助的像素级监督来辅助分类网络的训练，实验证明 SPG 能够在提高目标定位精度方面显著有效。
PDF6 years ago
无监督注意力引导的图像到图像翻译
本研究提出了一种注意力机制结合无监督学习和对抗训练的图像转换方法，能够在不需要监督的情况下，准确地定位并转换图像中的特定对象，从而比现有技术实现更加逼真的图像转换。
PDF6 years ago
Micro-Net: 一种用于显微镜图像中多种物体分割的统一模型
本文基于 CNN 的深度学习结构，针对显微镜图像中的目标分割和结构定位问题进行了研究，经过多重分辨率训练和中间层连接优化，通过多分辨率反卷积滤波器生成输出，在公开数据集上取得了优异的成果。
PDF6 years ago