VBR:罗马视觉基准测试
提出了一个包含 50 个具有独特多样性的现实中场景的数据集,用于评估单目视觉里程计和 SLAM 方法的跟踪精度,并在此基础上提出了一个相机光度校准的简单方法以及一种非参数化暗角校准方法,该研究详细评估了两种现有方法(ORB-SLAM 和 DSO)在该数据集上的效果。
Jul, 2016
该研究提出一种基于单目 RGB 图像的三维车辆检测方法,为此创建了 Cityscapes 3D 数据集,包含了所有类型车辆的三维标注信息,使得与基于 lidar 的方法相比具有更高效率和更大范围的标注信息。此外,研究将 2D 实例分割与 3D 包围盒成对提供,以便多任务学习。这对自动驾驶技术有着很重要的意义。
Jun, 2020
该研究提出了一个基于虚拟世界的视觉感知基准测试套件,通过对超过 250,000 个高分辨率视频帧的低层次和高层次的视觉任务进行全面地注释,并针对多个任务分析了最先进方法的表现,提供参考基线和突出未来研究的挑战。
Sep, 2017
本文提出了新的 TUM VI 基准数据集,为不同场景下的视觉惯性 (VI) 里程计进行评估提供具有多样性的序列,其中提供了相机图像和 IMU 测量值,并使用运动捕捉系统提供了准确的姿态真值。
Apr, 2018
通过提供高质量的真实世界数据和多种原始传感器数据,具有六自由度地面真值的计算机视觉基准集,比较 Google Tango、ARCore 和 Apple ARKit 的视觉惯性跟踪与两种学术方法。
Jul, 2018
该研究旨在开发 KITTI-360 数据集,以促进计算机视觉、图形学和机器人学领域的研究,并为移动感知相关的多项任务提供基准和基线。
Sep, 2021
该论文使用真实影像,聚焦日常室内环境下机器人视觉任务的模拟,构建新的公共数据集。该数据集可用于机器人视觉任务中的物体检测、主动视觉模拟和基于深度学习的强化学习下的下一步动作预测。在使用数据集的过程中,作者发现现有物体检测研究最大的问题是机器人视角对物体尺度,遮挡和方向的影响。
Feb, 2017
介绍了 JRDB 数据集,该数据集是从社交机器人 JackRabbot 采集的一系列包括 RGB 视频、点云、音频信号等多模态数据,并标记了超过 230 万个包围框及 3500 个时间连续轨迹,其可用于研究以机器人视角为主的视觉算法、人物探测和自主导航等领域。
Oct, 2019
在 RoScenes 中介绍了最大的多视角路边感知数据集,旨在为更具挑战性的交通场景的视觉中心 Bird's Eye View (BEV) 方法的发展提供参考。RoScenes 的亮点包括显着大的感知区域、完整的场景覆盖和拥挤的交通。通过 BEV-to-3D 联合注释流水线,我们以高效的方式收集了大量数据,达到了令人惊讶的 2113 万个 3D 注释。此外,我们还针对 RoScenes 上当前的 BEV 方法进行了全面的研究,考察了效果和效率。在大范围感知区域和场景间传感器布局变化的情况下,现有方法的性能未达到预期。因此,我们提出了 RoBEV,其结合了特征引导的位置嵌入,以实现有效的 2D-3D 特征分配。在验证集上,我们的方法在不增加额外计算负担的情况下,大幅领先于最先进方法。我们的数据集和开发工具包将在 https://github.com/xiaosu-zhu/RoScenes 上提供。
May, 2024
本篇论文介绍了一个名为 VisDrone2018 的大规模视觉对象检测和跟踪基准,目的在于推进基于无人机平台上的视觉理解任务,其包含了 14 个不同城市的各种城市 / 郊区地区的图像和视频序列,并提供了丰富的标注,如物体边界框的位置,物体类别,遮挡,截断比等,是迄今为止发表的最大的数据集之一,可广泛评估并研究在无人机平台上的视觉分析技术。
Apr, 2018