大规模离散动作空间下的深度强化学习

Dec, 2015

大规模离散动作空间下的深度强化学习

Deep Reinforcement Learning in Large Discrete Action Spaces

Gabriel Dulac-Arnold, Richard Evans, Hado van Hasselt, Peter Sunehag, Timothy Lillicrap...

TL;DR本文提出一种基于近似最近邻方法和先前关于行动的信息的强化学习算法，将大量离散行动嵌入到连续空间中，从而实现对大规模学习问题的解决。

Abstract

Being able to reason in an environment with a large number of discrete actions is essential to bringing reinforcement learning to a larger class of problems. Recommender systems, industrial plants and language models are only some of the many real-world tasks involving large numbers of

reinforcement learning discrete actions generalization approximate nearest-neighbor large-scale learning

发现论文，激发创造

通过动态邻域构建处理大离散动作空间

本文提出一种基于动态构建离散邻域的方法来有效地处理大离散行动空间，该方法优于已有的现有方法，能够更好的发挥行动空间的潜力，并且在计算效率上更具优势。

May, 2023

针对连续动作空间的表示学习有助于有效的策略学习

本文提出了一种在潜在状态和动作空间中进行高效策略学习的方法，扩展了状态表示以达到更好的策略泛化能力，同时通过将整个学习任务划分为无监督学习和强化学习来减小了训练规模。最后，在 MountainCar、CarRacing 和 Cheetah 实验中证明了该方法的有效性。

Nov, 2022

参数化行动空间下的深度强化学习

该论文研究了在 RoboCup 足球模拟领域中使用深度强化学习中的深度神经网络来处理参数化连续动作空间，成功地拓展了深度强化学习到参数化行动空间 MDPs 的类别，并比 2012 RoboCup 冠军代理更可靠地得分。

Nov, 2015

深度强化学习中连续动作的离散顺序预测

本文提出了一种使用神经网络模型对连续动作空间离散化建模的方法，通过预测单个维度的方法对高维空间进行建模，实现了有效解决高维连续控制问题的技术，其中利用基于 Q learning 算法的离策略 (off-policy) 方法取得了最先进的结果。

May, 2017

大规模离散动作空间的随机 Q 学习

在复杂环境中，使用深度神经网络作为函数近似器的大离散行为空间的强化学习问题中，传统的基于值的强化学习方法存在计算负担，本文提出了一种用于优化前 $n$ 个动作集合的变量随机子集的基于值的强化学习方法，并通过理论证明和实证验证表明，在不同控制问题上，这些方法在减少时间的同时仍能实现接近最优的平均回报。

May, 2024

深度 Q 学习中行动泛化差距的表征

该研究研究了深度强化学习中离散行动空间中的行动泛化能力，发现 Deep Q-Networks 仍能以较小的行动泛化差异在简单领域中实现行动泛化

May, 2022

参数化深度 Q-Networks 学习：离散 - 连续混合动作空间增强学习

在本文中，我们提出了一种带参数的深度 Q 网络（P-DQN）框架，用于处理混合行动空间，此算法无需任何逼近或者弛豫，充分发挥 DQN 和 DDPG 精神，并且在 RoboCup 足球和王者荣耀游戏中的仿真实验证明了我们方法的有效性。

Oct, 2018

机器人混合控制的连续 - 离散强化学习

采用混合强化学习方法来同时优化离散和连续动作，以解决带有混合决策变量的控制问题，并探索使用元动作来重新定义问题。

Jan, 2020

强化学习的动作表示学习

研究了在没有给定先验结构的情况下，如何基于状态表示和行为表示实现模型无关的强化学习方法，并提供了相应的算法和收敛条件。

Feb, 2019

深度强化学习中的泛化分析调查

通过利用深度神经网络解决高维状态或动作空间中的问题，强化学习研究在许多领域获得了显著的成功和关注。本文将概述深度强化学习策略遇到过拟合问题从而限制其鲁棒性和泛化能力的基本原因，并形式化和统一不同的解决方法来增加泛化能力并克服状态 - 动作值函数中的过拟合问题。我们相信我们的研究可以为当前深度强化学习的进展提供一个紧凑的系统统一分析，并有助于构建具有改进泛化能力的鲁棒深度神经策略。

Jan, 2024