在视频游戏中实用的强化学习的离散和连续动作表示

AAAIDec, 2019

在视频游戏中实用的强化学习的离散和连续动作表示

Discrete and Continuous Action Representation for Practical RL in Video Games

Olivier Delalleau, Maxim Peter, Eloi Alonso, Adrien Logut

TL;DR本研究基于 Soft Actor-Critic 算法提出了一种能够处理离散、连续和参数化动作的强化学习算法 Hybrid SAC，不仅能成功地解决高速驾驶等游戏中的任务，而且在参数化动作基准任务上也能与现有最先进的算法竞争，同时探讨了在最小计算成本下使用正则化流来丰富策略表达能力的影响，发现了 SAC 与正则化流一起使用时可能出现的潜在问题，并提出了优化不同目标的方法。

Abstract

While most current research in reinforcement learning (RL) focuses on improving the performance of the algorithms in controlled environments, the use of RL under constraints like those met in the video game industry

reinforcement learning hybrid sac soft actor-critic video game industry normalizing flows

发现论文，激发创造

使用规范化流策略改进软演员 - 评论家算法的探索能力

该研究提出了一种基于 Soft Actor Critic 算法的正态流策略分布模型，增加了模型的表达能力以提高稳定性和适应稀疏奖励环境下的探索能力。

Jun, 2019

通过混合动作表示解决离散 - 连续动作强化学习的问题

该研究提出了 HyAR，即混合动作表示，通过构建包含离散动作和连续参数的混合动作空间的紧凑的、可解码的潜在表示空间并利用无监督环境动态预测来训练这一表示，在传统的深度强化学习算法中实现策略的学习。实验表明，HyAR 在高维混合动作空间方面表现出优异的性能。

Sep, 2021

软性演员 - 评论家算法及其应用

本文介绍了一种基于最大熵强化学习框架的离线演员 - 评论家算法 Soft Actor-Critic，其中演员旨在同时最大化期望回报和熵，以在任务中成功执行尽可能随机的动作。作者通过对其进行一系列改进，如约束模型等，提高了模型的稳定性和训练速度，并在基准任务以及四足机器人的运动和灵巧手的机器人操作等现实世界挑战任务中取得了最先进的性能，在样本效率和渐近性能方面优于以往的在线和离线算法。

Dec, 2018

强化学习中带任意约束的随机动作的生成建模

通过应用条件正则流来紧凑表示随机策略，并采用无效行为拒绝方法更新基础策略，我们解决了离散多维，无序的大型动作空间中的优化策略问题，实验表明我们的方法具有较好的可扩展性和对任意状态下行为分布的条件限制的能力。

Nov, 2023

参数化深度 Q-Networks 学习：离散 - 连续混合动作空间增强学习

在本文中，我们提出了一种带参数的深度 Q 网络（P-DQN）框架，用于处理混合行动空间，此算法无需任何逼近或者弛豫，充分发挥 DQN 和 DDPG 精神，并且在 RoboCup 足球和王者荣耀游戏中的仿真实验证明了我们方法的有效性。

Oct, 2018

机器人混合控制的连续 - 离散强化学习

采用混合强化学习方法来同时优化离散和连续动作，以解决带有混合决策变量的控制问题，并探索使用元动作来重新定义问题。

Jan, 2020

通过持续行动的可变时间离散化的演员 - 评论家方法

提出了一种名为 SusACER 的离策略强化学习算法，它结合了不同时间离散化设置的优势，通过始初稀疏时间离散化逐渐转换为精细离散化，在机器人控制环境中进行分析，证实该算法在 Ant、HalfCheetah、Hopper 和 Walker2D 等场景中优于现有技术。

Aug, 2023

重新审视离散化软 Actor-Critic 算法

本文研究了将 soft actor-critic (SAC) 从连续动作空间适应到离散动作空间的方法，并提出了熵惩罚和双平均 Q-learning 以解决 Q 值低估和性能不稳定问题，通过在 Atari 游戏和大型多人在线战术竞技游戏上的实验验证了所提出方法的有效性。

Sep, 2022

参数化行动空间下的深度强化学习

该论文研究了在 RoboCup 足球模拟领域中使用深度强化学习中的深度神经网络来处理参数化连续动作空间，成功地拓展了深度强化学习到参数化行动空间 MDPs 的类别，并比 2012 RoboCup 冠军代理更可靠地得分。

Nov, 2015

通过正则流在无策略算法中利用探索

通过使用正则化流，将软 actor-critic（SAC）方法扩展到更丰富的概率分布类别，能够显着提高策略的探索性能，同时使用更小的策略表示，增加了参数效率。

May, 2019