熵正则化强化学习中利用之前的奖励塑形和组合方案

AAAIDec, 2022

熵正则化强化学习中利用之前的奖励塑形和组合方案

Utilizing Prior Solutions for Reward Shaping and Composition in Entropy-Regularized Reinforcement Learning

Jacob Adamczyk, Argenis Arriojas, Stas Tiomkin, Rahul V. Kulkarni

TL;DR本文提出了一种针对熵正则化强化学习中的奖励塑形和任务组合的方法，可以利用先前的解决方案帮助智能体快速解决新问题并加快学习速度。

Abstract

In reinforcement learning (RL), the ability to utilize prior knowledge from previously solved tasks can allow agents to quickly solve new problems. In some cases, these new problems may be approximately solved by composing the solutions of previously solved primitive tasks (

reinforcement learning task composition reward shaping entropy-regularized rl faster learning

发现论文，激发创造

学习如何利用成形奖励：一种新的奖励成形方法

本文提出了一种自适应利用给定塑形奖励函数的算法，通过将塑形奖励作为一个双层优化问题来解决，从而实现了真实奖励的最大化，并基于这个问题，提出了三种基于不同假设的学习算法。实验结果表明，我们的算法可以充分利用有益的塑形奖励，同时忽略无益的塑形奖励或者甚至将它们转化为有益的。

Nov, 2020

解析奖励塑造：理解奖励工程对样本复杂性的益处

本文阐述了在强化学习中选择适当的奖励设计方法对提高学习效率的重要性，并提出了一种将奖励设计融入强化学习框架的方案，并通过基于奖励设计所得到的样本效率的提高，证明了该方案在实践中的有效性。

Oct, 2022

基于层次结构的 KL 正则化强化学习中的学习和迁移

本文提出一种基于 KL 正则化预期奖励目标的强化学习代理方法，它可以利用先验知识并在解决方案空间中利用可重复使用的结构，同时讨论了在增加潜在变量的情况下如何实现分层结构的不同归纳偏置以及其中的置换学习问题。实验证明，这种代理方法可以应用于不同的连续控制任务中，获得更快的学习和置换效果。

Mar, 2019

元学习中的奖励塑形

本文提供了一种基于分布任务的 meta-learning 框架，自动学习新采样任务上的有效奖励塑形，从而解决了强化学习中信用分配的难题，并通过从 DQN 到 DDPG 的成功转移等各种设置，展示了探索 shaping 方法的有效性。

Jan, 2019

通过自动学习组合子任务实现高效样本强化学习

自动结构化奖励函数以提高样本利用率，并在稀疏奖励环境中显著优于现有技术基线。

Jan, 2024

强化学习的编排价值映射

本文提出了一种以将价值估计映射到不同空间和将奖励信号线性分解为多个通道的方式作为基础的强化学习算法，具有收敛性和泛化性，并可以用于处理高度变化的奖励尺度和集成学习等任务。

Mar, 2022

可验证的组合性强化学习系统

我们提出了一个可验证和组合的强化学习框架，其中一组强化学习子系统被组合起来以实现整体任务，子系统之间通过定义接口和部分可观察性相互交互。实验结果展示了该框架在各种环境中的新颖功能。

Sep, 2023

朝着计算高效的逆强化学习方向进发：通过奖励塑形

逆向强化学习是具有计算挑战性的，常见方法需要解决多个强化学习子问题。本研究激励使用基于潜力的奖励塑造来减轻每个强化学习子问题的计算负担，并希望能激发未来对计算效率高的逆向强化学习的发展。

Dec, 2023

使用深度强化学习组合无关任务的策略

本文介绍了一种基于深度强化学习的技能转移和组合方法，该方法将智能体的原始策略应用到解决未知任务中，并可在高数据效率下解决需要任务规划和动作控制的挑战性环境。

May, 2019

基于神经组合的模块化终身强化学习

本文提出了一种基于神经模块的组成式学习方式，探讨了在连续强化学习模型下的可重复利用子问题解决方案，并且通过离线重放经验保持表现以加速未来任务学习的累积神经组件复合持续强化学习方法。

Jul, 2022