学习重复：深度强化学习中的细粒度动作重复

Feb, 2017

学习重复：深度强化学习中的细粒度动作重复

Learning to Repeat: Fine Grained Action Repetition for Deep Reinforcement Learning

Sahil Sharma, Aravind Srinivas, Balaraman Ravindran

TL;DR本文提出了一种新的框架 Fine Grained Action Repetition (FiGAR)，该框架使代理能够在与环境交互的每个时间步长上决定动作以及重复该动作的时间尺度，可用于改进任何维护显式策略估计的深度强化学习算法。我们通过在不同领域的三个策略搜索算法上展示其性能改进，从而在 Atari 2600 领域中异步优势演员评论家，Mujoco 领域中的信任区域策略优化以及 TORCS 汽车比赛领域中的深度确定性策略梯度上展现了我们框架的效力。

Abstract

reinforcement learning algorithms can learn complex behavioral patterns for sequential decision making tasks wherein an agent interacts with an environment and acquires feedback in the form of rewards sampled from it. Traditionally, such algorithms make decisions, i.e., select actions

reinforcement learning fine grained action repetition deep reinforcement learning temporal abstractions policy search algorithms

发现论文，激发创造

学习因子策略和动作值函数：因子化动作空间表示在深度强化学习中的应用

该论文提出了一种新的学习范式，即分解学习控制策略使其在实现多个动作时只需要执行一个动作，从而取得了显著的性能提升，特别是在 Atari 2600 游戏中媲美或超过了两种 DRL 算法。

May, 2017

有效离线策略评估学习策略

研究提出了一种新型的强化学习框架，采用高级别动作空间，包括一组等效的任意长度的动作序列，能够提高强化学习的效率和计算效率。在两个最先进的离策略算法中应用该框架，实验证明，该框架能够使代理在每一集与环境打交道的次数更少，从而提高性能。

Jun, 2021

大规模离散动作空间下的深度强化学习

本文提出一种基于近似最近邻方法和先前关于行动的信息的强化学习算法，将大量离散行动嵌入到连续空间中，从而实现对大规模学习问题的解决。

Dec, 2015

深度强化学习的连续控制

本论文将 Deep Q-Learning 算法应用于连续动作域，并提出了一种基于确定性策略梯度的演员 - 评论家模型无模型算法，可在连续动作空间中进行操作，成功解决了 20 多个模拟物理任务，并能与完全访问动态并了解其导数的规划算法相竞争，并证明该算法对许多任务能够进行端到端学习。

Sep, 2015

通过行为持久性在批强化学习中控制频率自适应

本文介绍了一种基于动作重复的新算法 PFQI，旨在增强强化学习算法的性能，在理论上和实验中得到验证。

Feb, 2020

使用层次行动探索的深度强化学习实现对话生成

本文提出一种新的双粒度 Q 函数，通过探索最有前途的响应类型来介入采样，从而解决自然语言行动空间巨大所带来的效率问题，在多个设计用于识别人类情感细节的奖励函数中，以离线强化学习的方式学习，我们的算法在实证研究中表现优于基线方法，进一步验证表明我们的方法可以生成更高期望奖励和可控性响应。

Mar, 2023

永远不止于学习：机器人强化学习中微调的有效性

本论文提出了一种通过强化学习进行增量式 fine-tuning 的方法，可以有效地将图像为基础的机器人操作策略适应到新的环境、物体和感知中，在不到数据学习任务的 0.2％的情况下实现适应，这种方式可以大幅提高任务的性能表现，并且在连续学习场景下仍保持一致稳定。

Apr, 2020

强化学习中的新动作泛化

本研究提出了一个两阶段的框架来解决强化学习模型对新任务中无法适应新动作的问题，首先从任务中获取动作信息来推理动作表示，然后通过泛化目标训练灵活适应不同动作集的策略，在选择新动作解决物理推理谜题和新三维形状堆叠等顺序任务的基准测试中得到了推广。

Nov, 2020

RL-CFR: 在具有强化学习的不完全信息扩展形式博弈中改进动作抽象

RL-CFR 是一种基于强化学习的动态行动抽象方法，通过建立具有强化学习指导的行动抽象的游戏树，并利用反事实后悔最小化 (CFR) 进行策略推导，实现了更高的期望回报而不增加 CFR 解决时间，在 Heads-up No-limit Texas Hold'em 等游戏中胜率明显优于 ReBeL 的复制和 Slumbot。

Mar, 2024

基于模型无关生成回放的终身强化学习：以星际争霸 2 为例

本研究研究了三种 LRL 模型的生成式重演（GR）机制，提高了迁移学习等量化指标以及解决了忘却问题。通过实验结果表明，该机制在深度 RL 代理的潜藏向量空间内防止特征到行为映射发生漂移，缩小了训练样本数量，具有较高的实验价值。

Aug, 2022