- LaneSegNet 设计研究
为了提高计算机视觉算法在实时场景中对道路特征的准确评估能力,本研究探索了 LaneSegNet 架构,该方法将拓扑信息与车道线数据集成,以提供更多上下文理解道路环境的能力。通过修改特征提取器和变换器编码器 - 解码器堆栈,我们发现在训练时间 - 利用基于实地模型的自我监督算法进行自控伪装人类检测
本文提出了两种方法,自我监督和节俭学习,并将它们应用于追踪隐蔽对象的任务,实验结果表明,通过自我监督方法可以实现与完全监督的节俭学习相似的性能。
- DroneVis:无人机可变计算机视觉库
DroneVis 是一个用于自动化 Parrot 无人机上的计算机视觉算法的新型库。该库提供了多种功能和计算机视觉任务,并提供了多种模型以供选择。它使用 Python 实现,遵循高质量的代码标准,便于根据用户需求进行自定义和功能扩展。此外, - 多气候共存估计的天气不确定性建模
本研究提出了一种新的多天气共存估计方法,基于物理原理模型化了天气不确定性,并通过高斯混合模型和先验 - 后验学习实现了不确定性感知的多天气学习方案。实验结果表明该方法在常规多标签天气分类和多天气共存估计任务中均具有最先进的性能和广泛的泛化能 - DerainNeRF:粘滞水滴去除的三维场景估计
使用水滴去除方法,通过利用多视角图像来预测水滴的位置并训练神经放射场恢复清晰的三维场景,实验结果显示我们的方法在去除水滴的同时生成了清晰的三维场景,优于现有的水滴去除方法。
- OmniSCV:一种面向计算机视觉的全向合成图像生成器
我们提出了一个工具,用于生成具有语义和深度信息的全向图像数据集。这些图像是从采集于虚拟环境中的捕捉集合中合成的,能够提供像素级的关于语义、深度以及摄像头的校准参数的信息,从而为机器学习算法的训练和三维视觉方法的测试提供了像素精度的真实信息。
- ASIST 的姿态估计和跟踪
Aircraft Ship Integrated Secure and Traverse (ASIST) 航空器船舶综合安全遍历系统中的 Pose Estimation and Tracking for ASIST (PETA) 研究了一种 - 面部不对称:一种基于计算机视觉的面对面面试评估的行为度量指标
使用行为计量学作为辅助工具来客观评估面试者,本研究提出了一种测量面部表情的方法,利用开源计算机视觉算法和库来分析面部不对称性。
- HB-net:全面爆发细胞群集集成网络用于遮挡多目标识别
本研究提出了一种基于 HB 细胞群的 HB-net 网络框架,用于同时识别图像中多个遮挡物的复杂任务。实验证明,该框架在模型准确性方面比不含 HB 框架的模型提高了 2.98%,对于 ResNet50,该框架与 EA 机制相结合的模型具有可 - 使用深度学习进行 X 射线图像中非法物品的视觉检查
自动检测 X 射线图像中的违禁物品可以显著增加公共安全,提高机场、地铁、海关 / 邮局等地的安全人员的工作效率,并减轻其心理负担。研究表明,变压器检测器优越于过去几年为安全应用开发的辅助神经模块和 CSP-DarkNet 骨干卷积神经网络十 - VisionKG:通过知识图谱释放视觉数据集的力量
我们提出了一种基于知识图谱和语义网络技术的 Vision Knowledge Graph(VisionKG),用于链接、组织和管理具有异构特征的视觉数据集,提供简单访问和查询不同格式和分类法的最新视觉数据集,增强语义丰富性并通过 SPARQ - 通过合成卫星图像优化鲸鱼识别
通过生成航空和卫星合成图像数据集,SeaDroneSim2 基准套件改善了鲸鱼检测并减少了训练数据收集所需的工作量,相比仅使用真实数据进行训练,在鲸鱼检测方面取得了 15%的性能提升,通过对 10%的真实数据进行增补。
- AutoExp:一种多学科、多传感器框架,用于评估自动驾驶汽车中的人类活动
本文提出了一个实验框架,通过多学科的方法(计算机视觉和人文社科学)研究自动驾驶汽车乘客的内部活动,包括与驾驶无关的活动,旨在捕捉实时的真实数据并创建数据集,以促进计算机视觉算法的发展和评估。
- 利用 VGG16 算法对 CT 扫描图像中的肺癌进行分类
研究开发了基于 VGG16 深度学习算法的肺部结节诊断与分类方法,能够准确地识别良性、恶性和健康患者的癌症医学影像,灵敏度为 92.08%,准确度为 91%,AUC 达 93%,有助于肺癌早期诊断。
- 基于可见性图和迁移学习的无幅机器学习 PPG 信号处理
本研究介绍了一种基于图论和计算机视觉算法的 PPG 信号处理框架,它对仿射变换具有不变性,计算速度快,并在任务和数据集之间表现出强大的泛化能力,能够提取人体循环系统的各种生物特征。
- 使用高分辨率触觉传感器的基于 CNN 的物体识别方法
本文介绍了一种基于高分辨率压力传感器和卷积神经网络的两种方法,对接触对象进行分类。这些方法包括利用预训练的卷积神经网络或使用自定义 CNN 进行分类,并测试了 11 个配置的性能表现,提供了与当前触觉对象识别技术的比较讨论。
- ASL-Homework-RGBD Dataset:一个包含 45 名流利和非流利手语者,展示美国手语作业的注释数据集
我们发布了一个数据集,其中包含流利和不流利使用美国手语(ASL)的人的视频,该数据集是作为一个项目的一部分收集的,以开发和评估计算机视觉算法,以支持自动检测 ASL 流利度属性的新技术。该数据集可能对 ASL 教育研究人员也很有趣,因为它可 - SeaDronesSee:开放水域人类检测的海上基准
本文介绍了一个旨在填补从陆基视觉系统到海基系统的差距的大规模视觉目标检测和跟踪基准(SeaDronesSee),我们从各种高度和视角,提供海拔,视角和其他元数据等相关信息,收集和注释了超过 54,000 帧,包括 400,000 个实例,并 - 用于评估和提高对恶劣天气的鲁棒性的雨天渲染
本文介绍了一种雨渲染流程,可用于定量评估常见计算机视觉算法对不同程度降雨的影响,通过添加物理和数据驱动的合成雨生成合成数据集,证明算法的性能随着恶劣天气的增加而降低,且在增强的合成数据上微调可获得较高的性能提升。
- 自主驾驶赛车的准确、低延迟视觉感知:挑战、机制和实用解决方案
本论文介绍了将最先进的计算机视觉算法应用于自动驾驶赛车的实际挑战和解决方案,包括基于 YOLOv3 的物体检测,姿态估计和双目 / 单目视觉摄像头的时间同步,强调了适用于赛车领域的感知卷积神经网络的修改,姿态估计所使用的损失函数的改进以及亚