- 在共享空间中的自动驾驶车辆群体导航用于不确定性感知的深度强化学习
在人行道密集的环境中,安全、符合社会要求且高效的低速自主车辆的导航需要考虑行人的未来位置以及与车辆和其他人的互动。本研究提出了一种集成预测和规划方法,该方法在模型无关的深度强化学习算法的训练中考虑了预测的行人状态的不确定性。通过引入一种新的 - 闭环交互式具身推理的机器人操控
通过使用 MuJoCo 物理引擎和高质量渲染器 Blender,我们引入一个新的模拟环境,以提供既逼真又准确反映物理环境状态的视觉观察。除此之外,我们还提出了一个由 10 类多步骤推理场景构成的新基准,并开发了一种新的模块化闭环交互式推理( - WROOM: 一种用于越野导航的自主驾驶方法
使用自定义的模拟器和强化学习系统,在 Unity 游戏引擎中为自主车辆设计了一个端到端的深度强化学习解决方案,通过基于奖励的训练和控制栏函数,帮助智能体在真实场景中进行泛化,并通过提出的模拟环境在实际 RC 汽车上部署该方法。
- pfl-research:用于加速私有联邦学习研究的仿真框架
Federated learning 是一种新兴的机器学习训练范例,其通过在模拟环境中迭代实验来快速提出想法,pfl-research 是一个快速、模块化、易于使用的 Python 框架,支持 TensorFlow、PyTorch 和非神经 - 数据驱动的任务预测与知识驱动的人机协作规划
一个名为 DaTAPlan 的框架扩展了之前的工作,使用低层次学习模型(LLM)来预测高级任务,使得一个代理人和人类能够协同合作通过经典规划系统计算出的低级行动共同实现这些任务,还能自适应地适应人类行为结果和偏好的意外变化,通过在真实的仿真 - PeersimGym:使用强化学习解决任务卸载问题的环境
通过开发和优化计算网络中的任务卸载策略,引入了一个可自定义的模拟环境以支持深度强化学习代理,并展示了深度强化学习方法在分布式计算环境中显著提升任务卸载策略的潜力,从而弥合了理论强化学习模型和实际应用之间的差距。
- BEHAVIOR-1K: 一个以人为本、具体实施的人工智能基准,涵盖 1,000 个日常活动和逼真的模拟
我们提供了 BEHAVIOR-1K,这是一个全面的人类中心机器人仿真基准。BEHAVIOR-1K 包括两个组成部分,通过 “你希望机器人为你做什么?” 的广泛调查结果进行指导和激励。第一个是定义了 1,000 种日常活动,与 50 个场景( - 基于深度强化学习算法的污水处理中磷去除过程控制的深度学习模拟器
通过训练六个模型,创建了深度强化学习 (DRL) 的仿真环境,利用监控与数据采集系统 (SCADA) 提供的历史数据来改进废水处理过程中的磷去除,并解决了由模型预测误差累积引起的问题。
- 现实世界复杂环境中的人工智能协作与强化学习
在复杂的模拟环境中,研究表明人工智能与人类的合作胜过仅有人类或仅有人工智能代理的情况,并开发出了一种用户界面,使人类有效地协助人工智能代理。
- RetailSynth: 面向零售 AI 系统评估的综合数据生成
本文提出了一个多阶段模型来模拟顾客购物行为,将其嵌入一个模拟环境 RetailSynth 中,用于验证多类别零售的因果需求模型并将真实价格敏感性纳入个性化定价、促销和产品推荐的新兴基准套件。
- 机器人倒立摆平衡的连续控制问题的 Q 学习方法
该研究评估了一种离散动作空间强化学习方法(Q-learning)在机器人倒立摆平衡的连续控制问题中的应用。为了加快学习过程并克服直接在真实机器人系统上进行学习的技术困难,学习阶段在模拟环境中进行。通过对从真实系统获取的数据进行曲线拟合来推导 - 将你的资金投到你的口中:在拍卖竞技场中评估 LLM 代理的战略规划与执行
大型语言模型可以在复杂环境中模拟人类行为,在竞争环境中展示了高级推理技能,需要评估环境来探测战略推理、竞争动态场景中的长期规划,介绍了 AucArena 作为一个评估 LLMs 的新型模拟环境,在竞拍中证明了通过简单的提示,LLMs 确实展 - 自主软组织回缩的示范引导增强学习
利用模拟环境、软件操作系统以及先进的机器人技术,本研究证明了通过强化学习算法学习软组织操控的可行性,为未来研究和开发能够处理刚性和软组织相互作用的外科机器人奠定了基础。
- 基于深度强化学习的 CARLA 模拟自动驾驶
本论文基于强化学习(RL)与 Deep Q-Learning 框架以及 CARLA 仿真环境,探索了一种实现自动驾驶车辆在高速行驶时保持车道并避让其他车辆的策略,以提高交通安全性。
- CVPR手持物品重建的视觉触觉感知
本研究提出了一种基于 DIGIT 触觉传感器的视触对象重建框架 VTacO,并将其扩展到手 - 物体重建的 VTacOH,并通过 VT-Sim 模拟环境生成了大规模的训练数据集进行评估,展示了其在刚性和不可变形物体重建上具有优异的表现。
- FluidLab:可微流体环境用于基准测试复杂流体操作
本文介绍了 FluidLab,一个具有多样的复杂流体动力学操作任务的模拟环境,包括固体和流体之间的相互作用以及多个流体之间的相互作用。该环境使用可微物理模拟器 FluidEngine,在非凸和非平滑流体系统的优化问题中通过物理的可微性展示出 - Powderworld: 通过丰富的任务分布了解泛化的平台
本研究自主研发了一款轻量级 GPU 仿真环境 Powderworld,提供多样化的任务空间,旨在通过提供源自相同核心规则的多样化任务来支持对泛化扩展的研究,实验证明增加环境复杂性可改善世界模型和某些强化学习代理的泛化,但可能会抑制高方差环境 - 注重最坏情况鲁棒性的 Max-Min 离线策略演员 - 评论家算法
探讨了强化学习中的模拟环境和真实环境之间存在的不匹配问题,设计了一种基于最小 - 最大优化的离线演员 - 评论家算法(M2TD3)来优化不确定性参数集上的最坏情况表现,实现了该方法在 MuJoco 环境中的效果优于多个基准方法。
- 从多智能体到多机器人:一款可扩展的多机器人强化学习训练和评估平台
本文介绍了一个用于多机器人强化学习的可扩展仿真平台 SMART,该平台包含了一个仿真环境和一个真实的多机器人系统,以提供多样化的交互场景进行训练,并支持基于插件的算法实现。在此基础上,我们研究了合作驾驶变道场景所涉及到的若干具有挑战性的问题 - 基于 POMDP 的 Atari 掩码深度强化学习基准
介绍了基于 Atari 2600 游戏构建的模拟环境 Mask Atari,该环境为解决部分可观察强化学习问题提供了具有挑战性且有效的基准,并通过引入人类视觉系统的感受野,对移动物体可学习掩膜的敏感性进行了评估。