- 自主驾驶中基于视觉的三维占用预测:综述与展望
自动驾驶领域的一项新兴感知任务是基于视觉的 3D 占用状态预测,该论文对其背景、挑战、研究进展和未来展望进行了综述,并提供了与该主题相关的论文、数据集和代码的收集。
- 具有通用高斯喷洒的强化学习
通过在 RoboMimic 环境中验证,本研究提出一个名为 GSRL 的创新广义高斯喷洒框架作为强化学习任务的表征,相比基线方法在多个任务上提高了 10%,44%和 15%的性能,是首次尝试将可泛化的 3DGS 作为强化学习的表征。
- 基于模拟的强化学习在基于视觉的敏捷飞行中的引导
将强化学习和模仿学习有效性应用于基于视觉的自主无人机竞赛,通过直接处理视觉输入无需明确状态估计,我们提出了一种结合强化学习和模仿学习优势的新型训练框架,通过三个阶段的训练实现超越单独强化学习或模仿学习在仅使用视觉信息且无需明确状态估计的情况 - 运动之悖论:基于骨架的步态识别模型中的虚假相关证据
此研究挑战了视觉基于步态识别,特别是基于骨架的步态识别主要依赖于运动模式的普遍假设,揭示了行走序列中隐含的人体测量信息在其中的重要作用。通过比较分析,我们显示去除身高信息会导致三个模型和两个基准测试(CASIA-B 和 GREW)的显著性能 - 数据高效增强学习中的无监督显著路径选择
为了提高基于视觉的深度强化学习的样本效率,我们提出了一种名为 SPIRL 的新方法,用于自动提取输入图像中的重要区域。SPIRL 基于自编码器模型,在自监督训练的基础上,通过从随机采样的区域重建图像,再利用这些预训练模型检测和选择显著区域。 - SynH2R:用于学习人机交接的合成手 - 物体动作
通过引入适合训练机器人的合成数据,我们提出了一个能够生成逼真人类抓取动作的框架,通过对合成数据的纯训练,证明了我们的方法在模拟环境和真实系统中与依赖真实人类动作数据的最先进方法相媲美,并且能够扩展到更多未知物体和人类动作的大规模评估。
- TWIST: 教师 - 学生世界模型蒸馏用于高效的模拟到真实转化
使用仿真注入的图像观测作为特权信息,通过教师 - 学生模型蒸馏,本文提出了 TWIST 方法,在基于模型的强化学习任务中实现高效的仿真到实际转移,并在仿真和实际机器人任务中表现出更高的样本效率和任务性能。
- 机器人跑酷学习
本文提出了一种以视觉为基础、具有多样化跑酷技能的单一端到端学习系统,使用简单奖励而无需参考动作数据,通过直接配合启发的强化学习方法生成并传输到四足机器人上,使其能够在复杂环境中自主选择并执行适当的跑酷技能。
- 基于视觉的纳米空中飞行器自主停栖方法
本文提出了一种基于视觉的自主停泊方法,用于将纳米四轴飞行器停泊在水平表面上预定义的停泊目标上。
- 视觉化基于农业机器人导航的农田作物行出口
本文中介绍了一种基于视觉反馈的纯视觉方案,使用 RGB 图像进行局部特征匹配来退出作物行,并在作物行末端使用深度图像来估算导航距离,模拟在多样化的围栏区域中进行的算法测试表明其误差在 50cm 以内。
- 基于视觉的 DRL 自主驾驶代理与 Sim2Real 迁移
该研究提出了一种基于视觉的深度强化学习车辆控制方法,能够同时执行车道保持和跟车操作,具有从虚拟环境到真实环境的迁移能力,为自主驾驶技术的研究提供了新思路和方法。
- 基于图像的熟练操作:通过细化引导实现自主现实世界强化学习
本文提出了一种基于视觉的程序自由编程的方法,利用强化学习实现复杂多指手势下的实物操作,无需手动建模或奖励工程。
- 牛辨识的机器学习技术的系统综述:数据集,方法和未来方向
本文对基于视觉的牛辨识进行了系统的文献综述,旨在分析使用机器学习和深度学习进行牛识别的研究,并发现支持向量机、k 最近邻和人工神经网络是最常用的机器学习模型,而卷积神经网络、残差网络、Inception、YOLO 和 Faster R-CN - PixTrack: 使用 NeRF 模板和特征度量对齐进行精确的 6 自由度物体位姿跟踪
PixTrack 是一个基于视觉的对象姿态跟踪框架,使用新颖的视角综合和深度特征度量对齐方法,能够在 RGB 图像中高精度、鲁棒且无抖动地估算物体的 6DoF 姿态,无需任何数据注释或轨迹平滑。此外,该方法计算效率高,易于使用 CPU 多进 - 面向物理无关对象的元学习再抓取策略
本文介绍了一种基于视觉的元学习算法 DexNet-CNP,通过条件神经过程来学习不同物理特性进行抓取,模型在各种物体上的测试结果优于 DexNet-2.0。
- CVPRMonoTrack: 从单目羽毛球视频重建运动轨迹
本文介绍了一种从单目球拍运动视频中提取和分割三维羽毛球轨迹的完整端到端系统,该系统整合了羽毛球领域知识和基于视觉特征的模型改进,通过改进模型,提高了场地识别、2D 轨迹估计和击球识别的性能。
- ReorientBot: 物体定向学习,用于特定姿态的放置
本文介绍了一个基于视觉的机器人操作系统,能够通过姿态估计和体积重建实现物体重新定位,并通过学习的路径选择和传统的运动规划生成无碰撞路径,从而成功和高效地完成对物体的操作和重构,实现了机器人操作的自主化,成功率提高了 81%,执行时间提高了 - MMPIDNet: 用于动态行人入侵检测的高效网络
本研究基于动态 AoI 所捕获的视频帧,使用一种新颖高效的神经网络 PIDNet 进行行人入侵检测的多任务处理。实验结果表明,PIDNet 在该领域首次建立的基准数据集上,可以达到 67.1% 的准确率和 9.6 fps 的推理速度,为未来 - 基于深度学习的单目人体姿态估计方法综述
本篇论文对基于深度学习的 2D 和 3D 人体姿态估计方法及其挑战、框架、数据集、度量标准、性能比较和未来研究方向进行了综述。
- AlphaPilot:自主无人机竞速
本文提出了一个新颖的自主、基于视觉的无人机竞速系统,结合学习的数据抽象、非线性滤波和最优时间轨迹规划,该系统已成功在 2019 年 AlphaPilot 挑战赛中部署。与传统的无人机竞赛系统不同,该方法利用任何可见的门并利用多个同时检测到的