行为视觉套件:通过模拟生成可定制的数据集
本文探讨使用有针对性的合成数据增强 - 结合游戏引擎模拟和 sim2real 风格转移技术 - 填补视觉任务的真实数据集中的空缺。在三种不同的计算机视觉任务中(停车位检测,车道检测和单 ocular 深度估计),实证研究一致表明,将合成数据与真实数据混合训练能够显著提高交叉数据集的泛化性能。
Apr, 2020
通过混合模拟器和现实世界的数据,SimGen 模型能够学习生成具有多样性的驾驶场景,通过新颖的级联扩散管道解决了模拟到真实世界之间的差距和多条件冲突,并在保持可控性的基础上,获得卓越的生成质量和多样性。
Jun, 2024
本研究提出了一种用已有数据集进行数据注释以生成多模态数据的方法,以优化智能车辆系统中的数据模拟,实现高保真模拟并增加样本多样性并成功改善了语义分割的实验效果。
Aug, 2022
BehAVE 是一个视频理解框架,通过利用多样性的商用视频游戏作为领域随机化的来源,使用玩家行为来指导视频的对齐,从而实现基于一个第一人称射击 (FPS) 游戏的训练,在多个未见过的 FPS 游戏中成功传递玩家行为模式的零样本转移,并且在训练于不同类型游戏(如 Minecraft)的情况下,提高了基础模型到未见过的 FPS 游戏的零样本转移能力(最多达 22%)。
Feb, 2024
最近,事件驱动视觉传感器受到了自动驾驶应用的关注,因为传统的 RGB 相机在处理具有挑战性的动态条件时存在局限性。然而,现实世界和合成的事件驱动视觉数据集的可用性仍然有限。为了填补这一空白,我们提出了 SEVD,这是一种首个使用 CARLA 模拟器中的多个动态视觉传感器的多视点自我和固定感知合成的事件驱动数据集。数据序列记录在不同的光照条件(中午、夜间、黄昏)和天气条件(晴朗、多云、潮湿、多雨、雾霾)下进行,具有域漂移(离散和连续)。SEVD 跨越城市、郊区、乡村和高速公路场景,涵盖了各类物体(汽车、卡车、货车、自行车、摩托车和行人)。除了事件数据,SEVD 还包括 RGB 图像、深度图、光流、语义和实例分割,有助于全面了解场景。此外,我们使用最先进的事件驱动方法(RED,RVT)和基于帧的方法(YOLOv8)评估数据集的交通参与者检测任务,并提供基准标准进行评估。此外,我们进行实验评估合成事件驱动数据集的泛化能力。数据集可在此 https URL 获得。
Apr, 2024
该研究提出了一个基于虚拟世界的视觉感知基准测试套件,通过对超过 250,000 个高分辨率视频帧的低层次和高层次的视觉任务进行全面地注释,并针对多个任务分析了最先进方法的表现,提供参考基线和突出未来研究的挑战。
Sep, 2017
模拟是一个强大的工具,可以轻松生成带有注释的数据,特别适用于那些需要大型训练数据集的学习模型的领域。我们介绍了一个名为 UniCrowd 的人群模拟器及其关联的验证流程,展示了该模拟器如何生成适用于计算机视觉任务的带注释数据,并包括人群计数、人体姿势估计、轨迹分析和预测以及异常检测等相关应用。
Dec, 2023
开发一个统一的多任务基础模型已经成为计算机视觉研究中的一个关键挑战。本论文介绍了 VEnvision3D,一个用于多任务学习的大型 3D 合成感知数据集,包括深度补全、分割、上采样、场景识别和 3D 重建。对于每个任务的数据在相同场景下收集,使得任务在所使用的数据上本质上具有对齐的特点,从而可以探索多任务模型甚至基础模型的潜力。基于所提出数据集的特点,提出了几个新的基准测试,对端到端模型进行了广泛研究,揭示了未来研究的新观察、挑战和机会。此外,设计了一个简单的多任务网络,以展示 VEnvision3D 对基础模型可以提供的能力。我们的数据集和代码将在接受后开源。
Feb, 2024
本研究介绍了一个基于虚幻引擎的逼真仿真训练和评估系统 ——Sim4CV,它可以应用于计算机视觉领域的多个方向,例如自主飞行器追踪移动物体和自动驾驶,该系统可以自动生成真实感强的合成数据集来拓展现有的真实世界数据集。
Aug, 2017
系统化视觉想象技巧的第一个基准测试(SVIB)引入了一种最小化世界建模问题的新框架,通过评估模型在潜在世界动态下生成一步图像到图像转换的能力,为我们带来了系统感知和想象的联合优化、多个难度等级和控制训练中使用的因子组合的可能性。我们对 SVIB 上的各种基线模型进行了全面评估,提供了系统化视觉想象技巧的最新发展现状的见解,希望该基准测试有助于推进视觉系统化组合性的发展。
Nov, 2023