演化奖励函数自动化强化学习

ICMLMay, 2019

Evolving Rewards to Automate Reinforcement Learning

Aleksandra Faust, Anthony Francis, Dar Mehta

TL;DR使用 AutoRL，一种进化层，通过将奖励调整视为超参数优化并训练一组 RL 代理来寻找最大化任务目标的奖励，使得评估了两个 RL 算法上四个 Mujoco 连续控制任务之后 AutoRL 在改善之前的工作基础之上表现出提升，复杂任务上的提升最大。

Abstract

Many continuous control tasks have easily formulated objectives, yet using them directly as a reward in reinforcement learning (rl) leads to suboptimal policies. Therefore, many classical control tasks guide

rl autorl continuous control tasks reward tuning evolutionary layer

发现论文，激发创造

进化强化学习：综述

这篇文章综述了将进化计算方法与强化学习相结合的最新研究进展和方法，涉及强化学习中的关键研究领域及未来方向，为研究者和实践者提供参考和资源。

Mar, 2023

演化引导的强化学习策略梯度

本文介绍了一种基于人工进化算法和深度强化学习相结合的进化增强学习算法，该算法克服了传统深度强化学习算法中时序资格分配、探索效率和收敛性极度敏感的问题，使用基于种群的进化算法来训练深度强化学习代理人，实验结果表明，该方法在多种连续控制基准测试中显著优于传统深度强化学习和进化算法方法。

May, 2018

自动强化学习（AutoRL）：调查和开放问题

通过对自动强化学习的调查，我们提供了一个共同的分类法、详细讨论了每个领域并提出了研究中感兴趣的开放性问题。

Jan, 2022

强化学习智能体自动生成目标

提出了一种基于 Adversarial training 的方法，用于 Reinforcement learning 中任务发现的问题，可以实现在不需要任何先验环境知识的情况下，对多元化任务的高效自动学习，并且能够解决传统上存在的稀疏奖励问题。

May, 2017

基于奖励的可配置智能体：游戏风格连续体生成

本文提出了一种利用强化学习算法设计视频游戏测试的方法 --CARI 代理，相比于传统的基于奖励函数规划的算法，CARI 能更好地模拟多样的游戏风格，并能够通过单次训练达到传统方法的多倍效果，该新型代理可以用于游戏行为及平衡性调整等方面的研究。

Nov, 2022

使用策略和奖励塑形的无人机控制强化学习

本研究采用奖赏塑形和策略塑形技术同时训练 RL 智能体，以控制无人机；结果表明，与仅使用基于策略的方法训练智能体相比，使用两种技术同时训练的智能体获得了较低的回报，但训练期间达到了更低的执行时间和更少的离散度。

Dec, 2022

面向符号自动机编码目标的无模型强化学习

本文提出使用符号自动机的形式规范，来代替马尔可夫奖励，并定义了使用潜在奖励的策略，来提高强化学习的收敛性。

Feb, 2022

无监督感知奖励用于模仿学习

利用深度模型学习中间视觉表示的抽象能力来从少量的演示序列中快速推断知觉奖励函数，以便在真实世界环境中使用强化学习智能体执行任务。

Dec, 2016

控制任务中的循环架构的神经进化

该研究提出了一种新方法，即利用少量的突变规则来动态演化循环神经网络的结构，其结果表明，这种方法可以在大多数情况下匹配或超过梯度下降方法的性能，同时使用数量级更少的参数，该方法有望在对网络紧凑性和自主设计至关重要的实际应用方面开辟新的途径。

Apr, 2023

通过自动学习组合子任务实现高效样本强化学习

自动结构化奖励函数以提高样本利用率，并在稀疏奖励环境中显著优于现有技术基线。

Jan, 2024