- 用情景程序查询标记时序数据
确保自动驾驶车辆在道路上的安全性,模拟测试已成为道路测试的重要补充,其中对于验证 AV 行为是否与预期结果一致的需求与日俱增。本研究提出一种验证模拟时间序列故障与真实世界时间序列传感器数据一致性的方法,通过从真实世界时间序列数据集中检索故障 - 游戏过滤器:安全机器人在对抗想象中行走
通过离线博弈强化学习,用于合成高度鲁棒的安全过滤器以实现腿式机器人在不确定的、新颖环境中的安全操作。
- 面对环境不确定性的高样本效率鲁棒多智能体强化学习
为了解决强化学习中的模拟到实际之间的差距,学习策略必须对环境不确定性保持鲁棒性。本研究着重于多智能体环境中学习分布鲁棒马尔可夫博弈,提出基于模型的 DRNVI 算法来学习各种博弈论平衡的鲁棒变种,同时建立了信息论下界以确认 DRNVI 的近 - 阻抗匹配:实现四足机器人基于 RL 的跳跃
通过频域分析为基础的阻抗匹配,我们提出了一个新的框架来缩小仿真和真实机器人之间的差距,从而在动态足部运动中实现仿生动作。
- MAexp:基于强化学习的多智能体探索通用平台
我们提出了一个通用的多 Agent 探索平台 MAexp,该平台整合了各种最先进的 MARL 算法和代表性场景,通过使用点云来表示探索场景,实现了高保真度的环境映射和大约比现有平台快 40 倍的采样速度。此外,MAexp 还配备了基于注意力 - 基于表示的视角下的模拟到现实学习技能转移与发现
我们研究了使用表示学习进行机器人控制中的从仿真到实际的技能转移和发现。通过从马尔可夫决策过程的谱分解中获得灵感,我们得到了能够线性表示任何策略引发的状态 - 动作价值函数的表示,因此可以被视为技能。我们提出了一种处理动力学中仿真到实际差距的 - 分布式健壮强化学习与交互式数据采集:基本难题与近似最优算法
通过交互式数据收集,我们引入消失的最小值假设来解决强化学习中的 sim-to-real 差距问题,为设计样本高效的算法提供了足够的条件,并伴随着尖锐的样本复杂性分析。
- 离线分布鲁棒线性马尔科夫决策过程的样本复杂度
通过使用离线数据,基于分布健壮的线性马尔科夫决策过程,开发了一种悲观的模型算法,提供了一个具有样本效率的鲁棒性学习策略,以解决离线强化学习中模拟和实际环境之间的差异所带来的问题。
- 用可组合对象的 NeRF 来缩小视觉模拟与实际之间的差距
COV-NeRF 是一个用于合成真实世界训练数据的 NeRF 模型,通过从真实图像中提取对象并将其组合到新场景中,生成逼真的渲染图像和多种 2D 和 3D 监督信息,包括深度图、分割掩膜和网格,以快速消除各种感知模式之间的模拟与真实差距。
- 利用不变扩展卡尔曼滤波器和神经测量网络的四足机器人状态估计
该论文介绍了一种新颖的基于感觉自身位置的机器人状态估计器,该估计器结合了基于模型的滤波器和深度神经网络。通过整合神经测量网络 (NMN) 和不变扩展卡尔曼滤波器,论文展示了该状态估计框架在各种地形中的性能改进。
- 利用合成数据学习机器人布料操纵的关键点
通过合成数据进行训练,为几乎铺平的服装物品设计关键点检测器,从而推动合成数据在衣物操作中的使用,并为机器人折叠等任务提供支持。
- 从 RGB-D 视频中学习基于粒子的 3D 模拟器
通过视觉粒子动力学以及端到端学习的方式,我们提出了一种从观测数据中直接学习模拟器的方法,避免了对特殊的信息的依赖,从而实现更加真实可信的仿真。这一方法的 3D 结构使得场景编辑和长期预测成为可能,为视频编辑和机器人规划等应用提供了新的路径。
- 评估布料操控中的仿真与现实差距
通过评估可变形物体模拟器与真实数据之间的现实差距,我们提出了一个用于评估布料操作中模拟与真实之间差距的基准数据集。我们使用这个数据集评估了四个流行的可变形物体模拟器:MuJoCo,Bullet,Flex 和 SOFA 的现实差距、计算时间和 - 特权知识蒸馏用于模拟到真实策略泛化
本文提出了一种称为历史信息瓶颈 (HIB) 的新型单阶段特权知识蒸馏方法,通过从历史轨迹中捕捉潜在的可变动态信息来学习特权知识表示,以弥合仿真与现实之间的差距,并证明该方法比现有方法具有更好的普适性。
- 基于触觉的物体插入策略的零 - shot 转移
本文旨在训练一个模拟器中的接触利用操纵策略,以便在没有进行任何微调的情况下传输到实际机器人中,实验结果表明我们的策略比启发式和学习基线表现出更好的性能和泛化能力,同时也可以对不同尺寸和重量的盘子进行操纵,并探索了零点转移所需的各种因素。
- ICCVCodeNeRF: 面向物体类别的可分离神经辐射场
CodeNeRF 利用 3D 神经表征来学习物体的形状和纹理变化,从而可以合成未知物体的新视角,并且可以通过优化来估计摄像机视角、形状和外观代码。
- 学习主动任务导向的探索策略,弥合模拟与现实之间的差距
本文提出并分析了一种基于任务导向探索的框架,该框架通过在模拟环境中学习任务导向的探索策略来标识任务相关的系统参数,并将这些参数用于在现实世界中进行基于模型的轨迹优化。实验表明,任务导向的探索有助于在系统参数未知时,使基于模型的策略适应更好,