TempoRL: 学习何时采取行动

ICMLJun, 2021

TempoRL: Learning When to Act

André Biedenkapp, Raghu Rajan, Frank Hutter, Marius Lindauer

TL;DR提出了一种 proactive setting 的方法，其中智能体不仅在状态下选择一个动作，还选择要执行该动作的时间长度。TempoRL 方法介绍了状态之间的跳过连接，并学习了在这些跳过中重复相同动作的 skip-policy。研究表明，TempoRL 能够在传统和深度强化学习环境中学习成功的策略，速度比基准 Q-learning 快一个数量级。

Abstract

reinforcement learning is a powerful approach to learn behaviour through interactions with an environment. However, behaviours are usually learned in a purely reactive fashion, where an appropriate action is selected based on an observation. In this form, it is challenging to learn whe

reinforcement learning proactive setting temporl skip-policy q-learning

发现论文，激发创造

循环强化学习：一种混合方法

本文研究了一种深度学习方法，将强化学习和监督学习结合，通过长短时记忆网络对隐藏状态的表示进行学习，在部分可观测任务中表现出了很好的性能。

Sep, 2015

在 3D 游戏中使用并行动作的模仿学习

本文介绍了一种新颖的深度强化学习架构，其中利用了多动作策略来提高训练效率和性能，并结合了模仿学习和时序差分强化学习来快速训练视觉系统。

Mar, 2018

SkillS: 自适应技能序列用于高效的时间扩展探索

我们提出了一种在多个领域中比现有方法更出色的技能转移方法，通过学习现有的时间扩展技能序列来进行探索，并直接从原始经验中学习最终策略，实现快速适应和高效数据收集。

Nov, 2022

在强化学习中学习稀疏表示

本文探讨强化学习算法中的 TD Learning 和基础节疤核在强化学习中的作用，使用计算机模拟来验证利用稀疏的联合表示来学习在特定环境下获得预期奖励的好处。

Sep, 2019

人类速度：带有行动延迟的深度强化学习

该论文研究解决游戏人工智能的反应延迟问题，通过给智能体一个神经预测模型滞后，展示了超级斗地主 Bros. Melee 等游戏中对抗专业玩家的有效性。

Oct, 2018

有效离线策略评估学习策略

研究提出了一种新型的强化学习框架，采用高级别动作空间，包括一组等效的任意长度的动作序列，能够提高强化学习的效率和计算效率。在两个最先进的离策略算法中应用该框架，实验证明，该框架能够使代理在每一集与环境打交道的次数更少，从而提高性能。

Jun, 2021

基于奖励机器的自适应强化学习

本研究提出一种基于奖励机制的自适应学习算法，它可以通过自动生成特定上下文概率分布的课程来提高强化学习的数据效率，并在长期规划任务中取得了可靠的最优行为。

May, 2023

时间自适应强化学习

本文介绍一种适用于时间限制任务的增强学习算法，称为适应时间的马尔可夫决策过程，这种算法可以灵活地适应不同的时间限制，并使用两种无模型，基于价值的算法，Gamma-Ensemble 和 n-Step Ensemble。该算法可与许多现有的 RL 方法，算法和场景兼容，并能够实现零 - shot 的适应能力。

Apr, 2020

了解过去预测未来：强化虚拟学习

本篇论文提出了基于预测模型，使用历史数据构建的虚拟空间的强化学习模型，能够平衡长期和短期奖励，并使模型与真实环境交互以实现学习策略的最终收敛。在 Fed-Batch 过程的实验设置下，我们的方法始终优于现有技术水平。

Nov, 2022

学习行动：一种强化学习方法来推荐最佳下一步活动

本文介绍了一种基于强化学习的优化策略方法，利用过去的执行观察来学习最佳决策，并以关键绩效指标优化为目标，从而为用户提供最好的活动推荐。

Mar, 2022