- 具有偏倚离线数据和不完善模拟器的强化学习基准
许多强化学习应用中,很难让智能体在真实世界中行动,这给自动驾驶、医疗应用甚至某些推荐系统带来了困扰。本研究概述了强化学习中将离线数据与不完善模拟器相结合的四个主要挑战,并构建了 “机械离线强化学习基准”(B4MRL)来推动该领域的研究。结果 - 用高斯粒子映射实现现实世界飞行导航转换的液态网络
通过将高斯投影与四旋翼飞行动态相结合构建模拟器,并使用 Liquid 神经网络训练鲁棒的导航策略,我们展示了单一模拟场景中学习到的导航技能能够直接转移到真实世界,且在分布和物理环境变化剧烈的情况下,性能能够得到保持。
- TorchDriveEnv: 自主驾驶的强化学习基准测试 — 具有反应性、现实性和多样性的非可玩角色
通过使用全面集成的行为仿真 API,TorchDriveEnv 提供了一个易于使用且易于修改的轻量级 Python 强化学习基准,用于训练和评估驾驶模型,并与数据驱动的非玩家角色(NPC)进行比较,其初始化和驾驶行为具有反应性、逼真性和多样 - 在线强化学习中的复位的力量
使用局部模拟器访问(或本地规划)的在线强化学习协议探索了模拟器在高维度域中的力量,并通过一个计算效率低的算法取得了具有低覆盖性的 MDPs 的有效学习和可追溯性,同时利用 RVFS 算法提供了在推进覆盖性的统计假设下的可靠样本复杂度保证。
- QuasiSim:用于灵巧操作传递的参数化准物理模拟器
我们通过设计模拟器来探讨灵巧操作转移问题,使用参数化准物理模拟器和物理课程克服了之前的限制,成功使灵巧手在高保真度的模拟环境中追踪复杂多样的操作,成功率比最佳基准线提高了超过 11%。
- 通过贝叶斯推断缩小模拟与实际之间的差距
利用 SIM-FSVGD 学习机器人动力学,通过 simulators 对神经网络模型的训练进行正则化,实现准确的平均模型估计和精确的不确定性量化。在高性能 RC 赛车系统上实验表明,SIM-FSVGD 在缩小仿真与实际之间的差距和使用更少 - 神经 SPH: 拉格朗日流体动力学的改进神经建模
基于对平滑粒子流体动力学中的粒子聚类现象的洞察,本研究采用了标准 SPH 求解器的各个组成部分,包括压力、黏性和外力等,来增强基于 GNN 的模拟器的训练和推理性能,从而实现更好的效果和更长的时间扩展,可以更准确和稳定地模拟物理问题。
- 用于高逼真模拟和比较 SLAM 结果在相应虚拟和实际环境中的铯瓦片
本文研究了使用模拟环境来预测算法在现实世界中的结果。作者分析了 AirSim 模拟器、Unreal Engine 和 Cesium 插件如何生成真实世界位置的数字孪生模型,并探讨了完成分析时的几个技术挑战和解决方案。研究结果表明,Cesiu - RealGen:基于检索增强生成的可控交通场景
通过检索基增强的情境学习框架 RealGen,在交通场景生成领域中实现的灵活性和可控性,为生成自动驾驶车辆训练和评估的复杂行为启发了新的方向。
- 评估易变模拟器对自动驾驶系统测试的影响
自动驾驶系统模拟器的不稳定性会导致测试结果不一致,本研究通过研究两个关键问题:(1)不稳定模拟对基于随机算法的自动化测试的影响如何?(2)机器学习是否能够有效识别不稳定的测试并减少测试重新运行的次数?实证结果表明:自动驾驶系统测试的不稳定性 - 通过部分模拟的外推为模拟优化器提供非正式安全保证
自我监督学习是最先进的语言建模的基础。本文利用嵌入式智能体的笛卡尔框架模型,将单智能体世界扩展至多智能体世界,提出了一种名为 Cartesian object 的变体用于表示模拟,其中函数如令牌选择和模拟复杂性在模拟器的行为中进行了形式化, - 仿真机器人臂的安全强化学习
通过在 Panda 机械臂创建自定义环境,扩展安全强化学习算法的适用性,并通过与基准版本的比较表明,在满足安全约束条件的同时,受限版本能够学习到同样好的策略,但需要更长的训练时间。
- 自动驾驶模拟器调查:分类、挑战和评估指标
该研究论文通过深入审查自动驾驶模拟器,对其发展历程进行三个阶段的分类,并通过功能将模拟器分为五个类别。论文还指出了模拟器面临的一些关键问题,并提供了改进和评估方法,以提高模拟器的效果。
- 面向四足机器人的连续强化学习
四足机器人的持续学习方案探讨了在不同环境中顺序训练并评估其性能的能力,以洞察前向和后向技能传递的程度,以及机器人对先前获得技能的遗忘程度,以期提高其在真实场景中的适应性和性能。
- JAX-LOB: 用于交易的大规模强化学习的 GPU 加速限价委托簿模拟器
金融交易所使用限价挂单簿(LOB)来处理订单和撮合交易,而本研究着重于开发一种能够以大规模高效地模拟 LOB 动态的模拟器。我们展示了第一个能够并行处理数千个挂单簿且具有明显减少每条消息处理时间的 GPU 加速 LOB 模拟器的实现 - J - 2022 年真实机器人挑战赛:在真实环境中从离线数据中学习熟练操纵
通过对比优胜队伍的方法和最新的离线强化学习算法与挑战数据集的基准结果,本研究详细介绍了比赛规则,并讨论了利用模拟器和真实机器人进行实验的话题。
- 应用元建模进行 ATM 性能仿真
利用 XALM(解释性主动学习元模型)框架,将主动学习和 SHAP 值整合到航空交通管理 (ATM) 模拟器中,同时提高预测性能和可解释性,以支持 ATM 决策制定。通过在巴黎戴高乐机场的真实案例中使用 XALM,扩展到达管理器的范围和范围 - 语言条件下的交通生成
该研究论文介绍了一种名为 LCTGen 的模型,它结合了大型语言模型和基于变压器的解码器架构,利用语言作为动态交通场景生成的监督来源,其在无条件和条件下的交通场景生成方面表现优于之前的研究,并且在现实感和保真度方面更好。
- AnyTeleop: 一种通用基于视觉的灵巧机器人臂 - 手远程操作系统
提出了一个统一而通用的遥操作系统 AnyTeleop,支持多个不同的机器人模型、手型、现实以及摄像头配置,实现了高性能的真实世界实验和仿真中的模仿学习性能。
- Chakra: 通过标准化执行痕迹推进性能基准测试和协同设计
提出了一种名为 Chakra 的开放图谱模式,用于标准化工作负载规范,并提供了一组工具 / 功能,使各种模拟器、仿真器和基准测试能够收集、生成和采用 Chakra ETs,以推动未来人工智能系统的协同设计。