为智能电机控制构建强化学习环境工具箱
通过与基于传统工程方法的专业工业集成器的比较,研究表明基于深度强化学习的工业装配方法不仅可以超越已有的工业装配方法,还能超越人类运动系统,并且数据说明还有巨大的优化空间。
Mar, 2021
本研究介绍了PowerGridworld软件包,它是一个轻量级、模块化、可定制的框架,用于创建面向电力系统的多智能体Gym环境,并可与现有的强化学习训练框架集成。通过两个案例研究,证明了PowerGridworld可以快速实现多智能体RL策略的学习,并支持多设备、组合式的电力系统。
Nov, 2021
利用物理学领域的最新进展,提出一种新的方法来发现强化学习中物理系统的控制非线性动态,并证明此方法能够在很少的轨迹采样数量(仅需要一次$≤30$时间步的轨迹)下发现此动态,从而为系统带来基于模型的强化学习的好处,并且不需要事先开发模型。该算法在四个控制问题上的实验表明,训练得到的基于控制系统真实动态的最优策略泛化能力强,且对于实际物理系统具有很好的性能表现。与现有的其他方法相比,该方法需要采样更少的真实物理系统轨迹。
Aug, 2022
本研究提出了一种用于评估行动受限强化学习算法的基准测试,对现有算法及其新颖变种在多个机器人控制环境下进行评估,提供了领域的第一个深入视角,并揭示了令人惊讶的见解,包括普通基准方法的有效性。我们的实验中使用的基准问题和相关代码可在github.com/omron-sinicx/action-constrained-RL-benchmark上获得以供进一步研究和发展。
Apr, 2023
提出去中心化马达技巧(DEMOS)学习算法,改进了基于单个神经网络的强化学习控制器对任务的高度依赖性,并且在保持性能的同时提高了策略的鲁棒性和泛化能力。该算法通过自动发现可分离的马达群组并学习分散控制策略,可以在四足和人形机器人上实现。
Jun, 2023
该论文提出了一种新颖的脉冲神经网络(SNN)架构,用于解决具有实值观测的强化学习问题,该模型结合了多层事件驱动聚类、时序差分误差调节和资格迹,通过消融实验验证了这些组件对模型性能的显著影响,该网络在经典的强化学习环境中始终优于基于表格的方法,提供了更具硬件效率的强化学习解决方案的发展。
Jul, 2023
我们开发了一种精心实现的库,其中包含一种样本高效的离线深度强化学习方法,以及用于计算奖励和重置环境的方法,一个广泛采用的机器人的高质量控制器,和几个具有挑战性的示例任务。我们希望这些有希望的结果和我们的高质量开源实现将为机器人学界提供一个工具,以促进机器人强化学习的进一步发展。
Jan, 2024
本文提出了一种基于学习的控制策略,用于具有非对称滞后的非线性节流阀,从而实现接近最优的控制器,不需要任何关于环境的先验知识。通过仔细调整的比例积分器(PI)控制器并利用强化学习(RL)在引导策略上的最新进展,通过与阀门的额外交互学习改进闭环行为。我们在三个不同的阀门上的各种情况下测试了所提出的控制方法,所有情况都突出了结合PI和RL框架以改善非线性随机系统中的控制性能的好处。在所有实验测试用例中,所得到的代理比传统RL代理具有更好的样本效率,并且优于PI控制器。
Feb, 2024
本研究解决了深度强化学习(DRL)在机器人应用时面临的复杂性和成本问题。通过对DRL在开发现代机器人能力方面成功案例的综合分析,揭示了其关键因素和未被充分探索的领域,并提出未来研究的方向,重点在于稳定高效的RL范式和整合多种能力的系统性方法。这项工作为RL从业者和机器人研究人员提供了重要的见解,帮助他们利用RL的优势开发更具能力的实际机器人系统。
Aug, 2024