使用模型自由深度强化学习实现基于模型的强化学习中自适应的展开步长

Jun, 2022

使用模型自由深度强化学习实现基于模型的强化学习中自适应的展开步长

Adaptive Rollout Length for Model-Based RL Using Model-Free Deep RL

Abhinav Bhatia, Philip S. Thomas, Shlomo Zilberstein

TL;DR本文将调整 rollout length 作为元策略决策问题，通过动态改变超参数来优化在固定环境互动预算下通过模型强化学习学习到的最终策略，使用深度强化学习解决元策略决策问题，并在两个常见的强化学习环境中展示了其优势。

Abstract

model-based reinforcement learning promises to learn an optimal policy from fewer interactions with the environment compared to model-free reinforcement learning by learning an intermediate model of the environment in order to predict future interactions. When predicting a sequence of

model-based reinforcement learning rollout length meta-level sequential decision-making hyperparameter deep reinforcement learning

发现论文，激发创造

离线基于模型的强化学习中设计选择的重新审视

本研究比较不同的不确定性启发式方法，并设计新的协议来研究它们与其他超参数的交互作用，使用这些洞见，我们展示了使用 Bayesian 优化选择这些关键超参数可以产生优越的配置，这与现有手动调整的最先进方法大不相同，从而实现了大幅度的强化学习。

Oct, 2021

何时信任你的模型：基于模型的策略优化

本文研究模型在强化学习算法中的使用，旨在解决生成数据的容易程度与模型生成数据的偏差之间的平衡问题。作者提出了一种基于模型的强化学习算法，并探讨了模型在策略优化中的作用。实践中，作者发现模型生成的在线策略数据总是不如真实的离线数据。然而，通过将模型泛化能力的经验估计纳入到分析中，可以证明模型的使用是合理的。最后，作者展示了一种简单的方法，使用从真实数据中分支的短模型生成滚动数据，具有比其他基于模型的方法更好的样本效率，可以匹配最佳无模型算法的渐近性能，并能处理其它基于模型的算法不能处理的问题。

Jun, 2019

论基于模型的强化学习中超参数优化的重要性

本文研究了基于模型的强化学习中的自动超参数优化方法，实验证明，与人工调参相比，自动 HPO 能显著提高算法性能，并通过动态地调整多个超参数进一步优化模型性能，实验还揭示了计划视野和学习率等超参数对模型稳定性和奖励的影响。

Feb, 2021

RLHF 中的长度相关性研究

通过针对回应长度进行优化，研究表明强化学习从人类反馈中能够取得显著的改进，该研究还探索了其他方法以在不增加长度的情况下实现模型性能的提升，并发现了回应长度在奖励模型方面的相关性。

Oct, 2023

强化学习中历史感知的超参数优化框架

本文提出了一种复杂事件处理和时间模型相结合的框架来优化强化学习系统的超参数，同时利用历史信息和并行资源来提供反馈和调整超参数。作者在使用 RL（强化学习）的 5G 移动通信案例研究中测试了该方法，结果表明历史感知框架相比传统的超参数调整方法显著提高了性能。

Mar, 2023

最大熵模型推出：快速基于模型的策略优化，无需累计误差

本文提出一种最大熵模型回滚算法以解决深度神经网络动力学模型在长期预测时的累积误差问题。作者通过非均匀采样环境状态生成多样性模型回滚，并使用优先经验重放来完成最大熵采样标准。初步实验表明，该算法在效率和性能上都优于其他模型预测算法。

Jun, 2020

ODIN: 异构奖励减轻 RLHF 中的黑客攻击

通过建立评估协议和使用共享特征表示的两个线性头部，训练模型以预测奖励，一个与长度相关，另一个与长度无关，从而更关注实际内容，以减少奖励与长度的相关性并显著提高策略的性能。

Feb, 2024

基于技能的元强化学习

本论文旨在提出一种使用离线数据集中的先前经验来解决长期奖励任务的元学习方法，以实现复杂、长期目标的快速解决，可以显著提高样本效率并减少与环境的交互次数。

Apr, 2022

RL$^3$: 通过 RL 内外的 RL$^2$ 提升元强化学习

本文提出了一种 RL$^3$ 算法，该算法将 Task-specific action-values 作为 Traditional RL 学到的输入，并通过将 Traditional RL 和 Meta-RL 组合来在 Long-horizon 和 Out-of-distribution 任务中获得更高的累积回报。

Jun, 2023

Hyp-RL : 通过强化学习进行超参数优化

本论文将超参数优化问题建模为一系列决策问题，并用强化学习方法来解决，通过优化选择下一个待优化的超参数，从而提高模型性能。在 50 个数据集上的实验表明，该方法优于目前超参数学习领域的其他方法。

Jun, 2019