强化学习的混合奖励体系结构

Jun, 2017

Hybrid Reward Architecture for Reinforcement Learning

Harm van Seijen, Mehdi Fatemi, Joshua Romoff, Romain Laroche, Tavian Barnes...

TL;DR本文介绍了一种新的强化学习方法 —— 混合奖励架构（HRA），通过利用分解奖励函数并为每个组成部分学习单独的价值函数来实现应对价值函数无法轻易降维的领域的挑战。在获得 Ms. Pac-Man 游戏高于人类成绩的优异表现后，证明了 HRA 在玩具问题和 Atari 游戏 Ms. Pac-Man 上的有效性。

Abstract

One of the main challenges in reinforcement learning (RL) is generalisation. In typical deep RL methods this is achieved by approximating the optimal value function with a low-dimensional representation using a deep net

reinforcement learning deep network hybrid reward architecture value function ms. pac-man

发现论文，激发创造

基于优势辅助奖励的分层强化学习

本文提出一种基于 Hierarchical Reinforcement Learning 的框架，通过设置辅助奖励来适应下游任务，同时保持奖励设计的通用性。这种辅助奖励可实现高级策略和低级技能的高效、同时学习，无需使用特定任务的知识。实验结果表明，相比 Mujoco 领域中其他最先进的 HRL 方法，我们的算法有显著的性能优势，并且发现我们算法训练的低级和高级策略都是可转移的。

Oct, 2019

层次强化学习中的特征控制作为内在动机

本文介绍了一种通用的子目标类别，应用于端到端层次强化学习系统中，可用于处理含有稀疏奖励的 Montezuma 的复仇等 Atari 游戏。该方法引入了一组时间扩展行动，或选项，以及对应的子目标。

May, 2017

数据效率的分层强化学习

本文研究如何构建通用且高效的层次强化学习算法，其中较低层的控制器通过自动学习和提出的目标来实现上级控制器的监督，并使用脱离策略的经验来提高效率。我们称此算法为 HIRO，并在模拟机器人上的实验中表现出高性能和高样本效率。

May, 2018

深度强化学习基于层次性弱偏好反馈

通过排列的方式学习奖励函数，本研究提出了一个新的强化学习框架 - HERON，通过比较轨迹并使用决策树进行优先级排序来训练基于偏好的奖励模型，从而在处理复杂任务时减少了人工成本同时提高了性能。

Sep, 2023

无模型分层强化学习中的表示学习

本文提出了一种基于最近的经验的无模型子目标发现方法和内在动机学习机制相结合的层次强化学习方法，可以应用于大规模的问题，实现了对环境模型的无需获取，用于解决强化学习面临的巨大状态空间和稀疏奖励反馈的问题。

Oct, 2018

强化学习的编排价值映射

本文提出了一种以将价值估计映射到不同空间和将奖励信号线性分解为多个通道的方式作为基础的强化学习算法，具有收敛性和泛化性，并可以用于处理高度变化的奖励尺度和集成学习等任务。

Mar, 2022

用超网络重新组合强化学习构建块

本文提出使用超网络结构来改善强化学习和 Meta-RL 算法中梯度估计和学习步骤方差的问题，以提高学习效率和最终性能。实验表明，该方法可在不同的任务和算法中得到一致的改进。

Jun, 2021

多智能体强化学习与奖励机器的层次

本文研究利用奖励机器（RMs）来指定奖励函数，从而利用任务中高级事件的先前知识来促进学习效率的合作多智能体强化学习（MARL）问题。我们提出了具有层次结构的高级事件的多智能体强化学习（MAHRM），能够应对多智能体之间事件可以并发发生且代理具有高度相互依赖的复杂情况，通过分解任务为一系列更简单的子任务，并分配给少量智能体来减少整体计算复杂性。在三个合作 MARL 领域的实验结果表明，MAHRM 在使用相同的高级事件先前知识时优于其他 MARL 方法。

Mar, 2024

强韧性对抗性强化学习

提出了一种稳健性的敌对训练 (robust adversarial reinforcement learning, RARL) 方法，该方法将敌对训练与零和极小优化相结合，通过训练一个智能体，使其能够在真实系统上的杂乱因素和不确定性下操作，并在多种环境中进行了验证。

Mar, 2017

循环强化学习：一种混合方法

本文研究了一种深度学习方法，将强化学习和监督学习结合，通过长短时记忆网络对隐藏状态的表示进行学习，在部分可观测任务中表现出了很好的性能。

Sep, 2015