减少实际政策优化循环时间调整的成本

May, 2023

减少实际政策优化循环时间调整的成本

Reducing the Cost of Cycle-Time Tuning for Real-World Policy Optimization

Homayoon Farrahi, A. Rupam Mahmood

TL;DR探讨了在一个给定的任务中选择 action-cycle 时间时，学习算法的超参数是否需要重新调整，并进行了相应的实验和对比研究，提出了一种基于 cycle time 设置超参数的新方法，以避免针对每个 cycle time 进行昂贵和广泛的超参数调整。

Abstract

continuous-time reinforcement learning tasks commonly use discrete steps of fixed cycle times for actions. As practitioners need to choose the action-cycle time for a given task, a significant concern is whether the hyper-parameters of the learning algorithm need to be re-tuned for eac

continuous-time reinforcement learning hyper-parameter tuning policy gradient algorithms cycle time real-world robotics

发现论文，激发创造

变量决策频率选项评论家

本研究提出一种名为 CTCO 的框架，使学习智能体通过选择变量持续时间的子策略来实现在可能的情况下以低频率运作，并在必要时以高频率运作，从而克服了决策频率选择的困难。

Dec, 2022

优化深度强化学习用于自适应机械臂控制

本文探讨了使用树状 Parzen 估计器（TPE）对七自由度（DOF）机器人臂控制中的 Soft Actor-Critic（SAC）和 Proximal Policy Optimization（PPO）算法进行超参数优化的方法，在 50K 周期的训练中，实验结果显示 TPE 显著提高了算法的性能，提升了 SAC 的成功率 10.48 个百分点，提高了 PPO 的成功率 34.28 个百分点；此外，TPE 使得 PPO 在较短时间内能以最大奖励的 95% 收敛，比无 TPE 情况下快 76%，相当于节省了大约 40K 个周期的训练时间以达到最佳性能；对于 SAC 来说，优化的速度比无 TPE 的情况快 80%；本研究强调了先进的超参数优化对于复杂机器人任务中深度强化学习算法效率和成功率的影响。

Jun, 2024

强化学习中的超参数及其调整方法

本论文旨在提高深度强化学习的可重复性，通过比较多个 HPO 工具，展示了 HPO 方法通常具有更高的性能和更低的计算开销，并提出采用从 AutoML 中建立的最佳实践，以及在广泛的搜索空间内进行原则性的 HPO。最终，论文推荐了一套适用于 RL 社区的最佳实践，以实现更强的实证结果、更少的计算成本、更好的可重复性和更快的进展。

Jun, 2023

基于模型的强化学习有效调度

本文提出了一个名为 AutoMBPO 的框架，可以自动调度模型驱动策略优化算法（MBPO）中的重要超参数，其中包括真实数据比例。在多项连续控制任务中，由 AutoMBPO 调度的超参数对 MBPO 的性能具有重要的改进作用，并且所找到的真实数据比例与理论分析得出的一致。

Nov, 2021

基于强化学习的路径规划：一种策略迭代方法

该研究针对强化学习参数的设计空间进行了设计空间探索，提出了基于自动调谐器的序数回归方法，可以加速收敛并实现 1.82 倍的峰值加速度和 1.48 倍的平均加速度。

Mar, 2023

连续学习中的超参数：现实检验

连续学习算法的评估方法不仅不切实际，而且不能有效地评估算法的连续学习能力，通过基于提议的协议在类增量学习方案上的实验，我们不仅观察到现有评估方法未能适当评估各个算法的连续学习能力，还观察到一些最近提出的报告表现优越的先进算法实际上与以前的算法相比表现较差。

Mar, 2024

连续学习中的超参数选择

对多任务连续学习问题中的超参数优化提供了多种真实可行且计算效率高的方法，并建议在第一个任务中对超参数进行拟合，并在后续训练中固定它们。

Apr, 2024

HyperPPO：一种用于机器人控制的寻找小策略的可扩展方法

为实现记忆受限、高性能机器人的神经控制，需要具有较少参数的模型。本研究提出了一种基于图形超网络的在线策略强化学习算法 HyperPPO，能够同时估计多个较小神经网络架构的权重，并获得高性能的策略。我们的方法能够在保持采样效率的同时，为用户提供选择适合计算约束的网络架构。实验证明，我们方法的扩展性较好，更多的训练资源能够更快地收敛到性能更高的架构。我们还展示了 HyperPPO 估计的神经策略能够进行 Crazyflie2.1 四旋翼飞行器的分散控制。

Sep, 2023

在线持续上下文推荐系统超参数优化

本文提出了第一个在线连续超参数调整框架，即 CDT 框架，用于学习最佳超参数配置，可以在不预设候选超参数组合的情况下调整上下文 bandit 算法，其中使用 Zooming TS 算法进行探索和重启技术来避免环境切换，并提供更好的实验结果。

Feb, 2023

连续控制中基准化深度强化学习任务的再现性

本研究探讨了在强化学习中使用策略梯度法的重要性和挑战以及如何提供一致的基准实验来比较新方法。主要研究领域包括连续控制任务、超参数调整和算法的一般方差。

Aug, 2017