- 基于语义先验精细调整的弱监督视觉 - 文本链接
论文提出了一种基于弱化监督的视觉文本对齐模型 SPRM,通过组合输出的两个模块的预测结果学习文本短语和边界框之间的对应关系,达到了最先进的实验效果,并且在使用少量训练样例时也具有竞争性能。
- 医学图像上的 SAM:三种提示模式的全面研究
本文针对 Segment Anything Model(SAM)在医学图像分割领域的 zero-shot 泛化能力进行了研究,并发现模型对于不同数据集和提示的表现会有差异,通过提供适当的提示,如边界框,SAM 的性能显著提高。
- AirBirds: 一份真实世界机场鸟撞预防的大规模挑战数据集
本文介绍了一个大规模的数据集 AirBirds,其中包含了 118,312 个时间序列图像,覆盖了 409,967 个飞鸟的边框注释,是首个在真实机场环境中直接收集飞鸟的、用于研究和实践鸟击防护的大规模数据集。
- SAM 计数可以数任何东西吗?基于经验的研究
本研究探索了 Meta AI 发布的 Segment Anything 模型(SAM)在几个具有挑战性的任务中的应用,并发现对于小型和拥挤的对象而言,其在少样本目标计数方面表现不足,需要进一步微调。
- 直接优化 IoU 以进行边界框定位
本文提出了一种新的损失函数 ——Smooth IoU,用于直接优化边界框的交并比,在多个数据集上显示出比标准的 Huber 损失更好的性能表现,该方法可应用于物体检测问题,使用卷积神经网络进行训练。
- 使用自监督 Transformer 进行多目标定位的目标发现
本文提出了使用自监督学习训练的 Transformer 网络定位多个物体的方法 MOST,并通过分形分析检测出前景补丁上的代币,将代币聚类生成边界框,最终在 PASCAL-VOC 07、12 和 COCO20k 数据集上表现优于其他方法,同 - 通过学习超分割和迭代搜索来拟合紧密边界框的分离、合并和优化
本研究提出了一种基于神经网络的过分割和迭代合并和细化的新框架,以找到 3D 形状的一组紧密边界框。通过使用现有的无监督分割网络分割形状并获得过分割,应用具有紧密感知合并和停止标准的分层合并。最后,通过基于 MCTS 的多行动探索进一步改进界 - ICLR多边形生成器:一种自回归建筑物轮廓划分工具
本文介绍了一种基于图像转序列的模型来实现地理空间规划中物体的矢量化表示,以解决在远程感应应用中经常遇到的变异和瑕疵等问题。同时,该模型在使用真值边界框时,具有较高的性能,取得了最低的最大正切角误差。
- CVPRISBNet:一种具有实例感知采样和盒感知动态卷积的 3D 点云实例分割网络
ISBNet 是一种新颖、高效的三维实例分割方法,通过使用核来表示实例并通过动态卷积解码实例掩码,预测和利用三维轴对齐的边界框将进一步提高性能。实验结果表明,该方法在 ScanNetV2、S3DIS 和 STPLS3D 数据集上取得了最新的 - CVPR物体检测数据集中的噪声标签处理
该研究探讨了利用自信学习算法来改善训练数据集的质量,通过发现原始训练数据集中的错误标签,可以消除其根源上的错误样本并重新标注可疑的边界框来提高数据集的质量,最终提高目标检测算法的性能。
- CVPRBoxTeacher:探索高质量的弱监督实例分割伪标签
BoxTeacher 是一个高效 End-to-End 的训练框架,可以实现使用 Bounding Box 产生高质量的 Mask 标签的弱监督实例分割,BoxTeacher 使用一个复杂的教师网络产生高质量的 Mask 标签,然后通过 n - 对抗检测:实时攻击目标检测
本研究提出了第一种实时在线攻击物体检测模型的方法,通过构造虚假物品边界框等三种攻击方式对物体检测模型进行攻击,成功率高达 90%,适用于动态环境中,并提供了演示视频。
- ECCV不准确边界框下鲁棒物体检测
本文旨在提出一种基于对象感知多实例学习的方法来学习对不准确边界框具有鲁棒性的对象探测器。通过选取准确的实例并生成高质量实例来最小化误差和提高精度。实验结果表明,该方法在合成和真实嘈杂数据集上均有效。
- 计算平均精度的并行实现
通过使用广播,掩码和索引,我们提出了一种并行化的方法来处理检测到的边界框和真实值边界框,以计算平均精度,并且我们的实现是基于 PyTorch 和 TensorFlow 的,因此更快,更容易适应典型的训练例程。
- 目标检测中的嘈杂标注精炼
本研究提出了一种新的方法来在包含类标注和边界框注释的噪声数据集上训练目标检测器,能高效地分离这些噪音并进行纠正,使训练得到的检测器能够显著优于基准检测器。
- CVPR高级相机 - LiDAR 融合与机器学习的 3D 物体检测
本研究提出了一种使用单目摄像头和 LiDAR 数据结合的机器学习技术,通过以国际排名领先的二维物体探测器生成的锥体区域来分割 LiDAR 点云,从而检测运动平台周围的车辆的 3D 边界框参数, 最终验证集准确率达到 87.1%。
- AAAI再加一道检查:让 “虚假背景” 再次被追踪
本文介绍了一种重检网络,利用 ID 嵌入在数据关联到运动预测方面进行创新性的推广,有助于重新加载 “假背景” 并修复断裂的径迹。运用于一种强大的基准 CSTrack 上,构建了一种新的一次追踪器,并在 MOT16 和 MOT17 上取得了显 - ICCV多实例姿态网络:重新思考自上而下的姿态估计
提出了一种名为 Multi-Instance Pose Network (MIPNet) 的人体姿势估计模型,能够在给定边框范围内预测多个 2D 姿态实例,并引入了一种称为多实例调制块(Multi-Instance Modulation B - ICCV用于检测人 - 物交互的空间条件图
本文提出了一种使用图神经网络检测图像中人与物体之间交互作用的方法,并通过在节点对之间的空间关系上进行消息调节来改进模型的性能,以获得更好的检测精度。实验结果表明,该方法取得了良好的检测效果。
- 无类别目标检测
本文提出一种新的问题,即识别边界框内任意物体而不考虑它们的类别,以解决传统检测器在现实应用中的局限性,而作者提出的对抗性学习框架可以提高非类别感知物体检测的效力。