时间自适应强化学习

ICLRApr, 2020

Time Adaptive Reinforcement Learning

Chris Reinke

TL;DR本文介绍一种适用于时间限制任务的增强学习算法，称为适应时间的马尔可夫决策过程，这种算法可以灵活地适应不同的时间限制，并使用两种无模型，基于价值的算法，Gamma-Ensemble 和 n-Step Ensemble。该算法可与许多现有的 RL 方法，算法和场景兼容，并能够实现零 - shot 的适应能力。

Abstract

reinforcement learning (RL) allows to solve complex tasks such as Go often with a stronger performance than humans. However, the learned behaviors are usually fixed to specific tasks and unable to adapt to different contexts. Here we consider the case of adapting RL agents to different

reinforcement learning time adaptive markov decision processes model-free algorithms value-based algorithms gamma-ensemble

发现论文，激发创造

二时间尺度强化学习的有限时间性能界和自适应学习率选择

本文研究两种时间尺度线性随机逼近算法，并使用一个基于奇异扰动理论的李雅普诺夫函数来得出有限时间性能界限，最终设计出一种自适应学习速率方案，以显著提高收敛速度和表现。

Jul, 2019

时变系统中强化学习的揭秘

探索如何通过一个稳健的框架解决非稳态环境下的强化学习问题，其中该框架通过识别不同的环境、触发探索、将先前环境的知识保留下来以及保护系统性能来训练 RL agent，并且在解决一些系统问题时进行了验证。

Jan, 2022

时钟受限的鲁棒马尔科夫决策过程

通过引入新的时间约束鲁棒马尔科夫决策过程（TC-RMDP）表达方式，考虑到多因素、相关性和时变干扰，该研究重新审视了鲁棒强化学习中的传统假设，为发展更实际、更真实的强化学习应用开辟了新的路径，同时在时间受限环境下，在保持鲁棒性的同时，取得了性能和鲁棒性之间的高效平衡。

Jun, 2024

强化学习中的时间限制

本文探讨了如何在有限时间内训练强化学习（reinforcement learning）代理，以及如何通过将时间限制整合到算法中来提高性能和稳定性，在控制任务（control tasks）方面取得了最新的成果。

Dec, 2017

什么时候进行感知和控制？一种适应时间的连续时间强化学习方法

优化系统学习离散时间决策进程的强化学习算法，以减少与系统的交互次数并提高性能，同时提出了时间自适应控制和感知（TaCoS）框架以及 OTaCoS 模型算法。

Jun, 2024

带时间窗的概率时空约束下的强化学习

我们提出了一种基于自动机理论的强化学习方法，用于复杂时空约束下的限时学习。该方法通过将有界时态逻辑约束转化为总自动机，并基于已知的转移概率上下界避免 “不安全” 动作，从而在学习过程中强制满足约束条件的概率达到预期值。

Jul, 2023

延迟随机环境中的控制：基于模型的强化学习方法

本文介绍了一种用于具有延迟反馈环境中的控制问题的新的强化学习方法，该方法采用了随机规划而非以前使用的确定性规划方法，从而在策略优化问题中嵌入了风险偏好。我们展示了该方法能够恢复具有确定性转换的问题的最优策略，并将其与文献中的两种先前方法进行对比。我们将该方法应用于简单任务以了解其特点，然后比较了这些方法在控制多个 Atari 游戏方面的性能。

Feb, 2024

具有外部时间进程的马尔可夫决策过程

本文研究在外部时间过程的影响下的马尔可夫决策过程，提出了一个策略迭代算法来解决这个问题，并对其性能进行了理论分析。

May, 2023

基于奖励机器的自适应强化学习

本研究提出一种基于奖励机制的自适应学习算法，它可以通过自动生成特定上下文概率分布的课程来提高强化学习的数据效率，并在长期规划任务中取得了可靠的最优行为。

May, 2023

TempoRL: 学习何时采取行动

提出了一种 proactive setting 的方法，其中智能体不仅在状态下选择一个动作，还选择要执行该动作的时间长度。TempoRL 方法介绍了状态之间的跳过连接，并学习了在这些跳过中重复相同动作的 skip-policy。研究表明，TempoRL 能够在传统和深度强化学习环境中学习成功的策略，速度比基准 Q-learning 快一个数量级。

Jun, 2021