学习合成环境和奖励网络以进行强化学习

Feb, 2022

学习合成环境和奖励网络以进行强化学习

Learning Synthetic Environments and Reward Networks for Reinforcement Learning

Fabio Ferreira, Thomas Nierhoff, Andreas Saelinger, Frank Hutter

TL;DR这篇论文介绍了一种用于训练 Reinforcement Learning 代理的代理环境模型 ——Synthetic Environments 和 Reward Networks，可以通过双层优化演进 Synthetic Environments 和 Reward Networks。研究结果表明 Synthetic Environments 通过学习到偏向相关状态的信息来为代理提供有用的信息，从而降低了训练新代理所需要的真实环境的交互次数，并且可以抵御超参数变化，具有较强的泛化性。

Abstract

We introduce synthetic environments (SEs) and reward networks (RNs), represented by neural networks, as proxy environment models for training rei

synthetic environments reward networks reinforcement learning bi-level optimization proxies

发现论文，激发创造

发现最小的强化学习环境

通过元学习神经网络马尔可夫决策过程，我们发现专门的训练环境对于训练强化学习智能体具有潜在的速度提升能力，并且发现上下文为基的赌博机能够实现良好的评估环境转移，从而加速下游应用。

Jun, 2024

视觉语言导航的软专家奖励学习

本文提出了一个 Soft Expert Reward Learning（SERL）模型，该模型包含两个互补的组件：Soft Expert Distillation（SED）模块和 Self Perceiving（SP）模块，以解决 Vision-and-Language Navigation 任务中奖励工程和泛化问题，并在 VLN 领域的各种评估指标上打破了现有方法的记录。

Jul, 2020

合成体验回放

通过利用生成模型技术，我们提出了 Synthetic Experience Replay（SynthER），这是一种基于扩散的方法，能够有效地提高在数据有限的情况下训练强化学习代理的样本效率，并为重放学习算法的深度学习实现开启了使用合成数据的大门。

Mar, 2023

通过建模奖励来学习理解目标规格

提出了一种基于奖励模型的框架，它使得机器学习代理能学习到语言指令，并通过这些指令执行任务，而不需要通过修改环境奖励函数来实现。这种方法将任务的语义表示和执行分离，在简单的网格世界中，使代理能够学习一系列涉及块的交互和对空间关系的理解的指令，且无需新的专家数据就可以适应环境的变化。

Jun, 2018

基于人类评估反馈的原始技能基础机器人学习

SEED 是一个结合了人类反馈的强化学习和基于原始技能的强化学习的新框架，通过减少人类的工作量和增加训练过程的安全性，有效地解决了长期任务中的样本低效性和安全性问题。SEED 在五个具有不同复杂度的操作任务上表现出了比其他强化学习算法更高的样本效率和安全性，并且与其他 RLHF 方法相比，也大大减少了人类的工作量。

Jul, 2023

通过对齐的经验估计实现高效的基于偏好的强化学习

PbRL 方法 SEER 通过整合标签平滑和策略规则化技术，提高了反馈效率，取得了显著的性能优势。

May, 2024

开放式世界中的学习课程

该论文介绍了一种称为无监督环境设计（UED）的方法，通过自动生成无限的训练环境序列或课程以匹配或超过真实世界的复杂性，从而实现深度强化学习代理在鲜有环境示例中表现出显著改进的鲁棒性和泛化能力，这些自生成的环境课程为不断生成和掌握自主设计的额外挑战的开放式学习系统提供了有希望的路径。

Dec, 2023

逆强化学习环境设计

通过适应性设计专家演示环境，改善学习效率和鲁棒性，解决基于专家演示学习和环境动力学变化下的奖励函数学习挑战。

Oct, 2022

通过解耦环境和代理的表示实现高效强化学习

提出了一种利用机器代理的视觉知识学习结构化表示的强化学习算法，并通过辅助损失函数将其融入强化学习目标，在包括 5 种不同机器人的 18 个具有挑战性的可视化仿真环境中，我们的方法比现有的无模型方法表现更好。

Sep, 2023

S-REINFORCE: 一种神经符号化策略梯度方法，用于可解释的强化学习

该研究提出一种新的强化学习算法 S-REINFORCE，旨在为动态决策任务产生可解释的策略，该算法利用神经网络（NN）和符号回归器（SR）两种类型的函数逼近器来生成数值和符号策略，分别捕捉 NN 组件学到的生成可能动作的数值概率分布以及 SR 组件捕捉关联状态和动作概率之间功能形式，并将其结合起来从而实现对决策问题的求解。实验结果表明 S-REINFORCE 算法在低维度和高维度决策空间的动态决策问题上都具有高效性和影响力，并且所得到的策略不仅性能良好，而且容易理解，是透明度和因果关系至关重要的实际应用的理想选择。

May, 2023