DERAIL：面向奖励和模仿学习的诊断环境

Dec, 2020

DERAIL：面向奖励和模仿学习的诊断环境

DERAIL: Diagnostic Environments for Reward And Imitation Learning

Pedro Freire, Adam Gleave, Sam Toyer, Stuart Russell

TL;DR通过开发一套简单的诊断任务，并对常见的奖励学习和模仿学习算法进行评估，本研究证实算法的性能高度依赖于实现细节，其中还揭示了套件如何确定设计缺陷并快速评估解决方案的案例研究。

Abstract

The objective of many real-world tasks is complex and difficult to procedurally specify. This makes it necessary to use reward or imitation learning algorithms to infer a reward or policy directly from human data. Existing benchmarks for these algorithms focus on realism, testing in complex environments. Unfortunately, these benchmarks are slow, unreliable a

reward learning algorithms imitation learning algorithms diagnostic tasks algorithm performance design flaws

发现论文，激发创造

强化学习自然环境基准

本文提出了三类全新的强化学习基准测试领域，包含了一定数量的自然世界的复杂性，同时支持快速而广泛的数据采集，此举将挑战强化学习社区开发更加稳健的算法以满足高水准的评估要求。

Nov, 2018

逆强化学习环境设计

通过适应性设计专家演示环境，改善学习效率和鲁棒性，解决基于专家演示学习和环境动力学变化下的奖励函数学习挑战。

Oct, 2022

无监督感知奖励用于模仿学习

利用深度模型学习中间视觉表示的抽象能力来从少量的演示序列中快速推断知觉奖励函数，以便在真实世界环境中使用强化学习智能体执行任务。

Dec, 2016

一个以工业控制问题为基础的基准测试环境

本研究介绍了一个用于桥接软件基准测试和真实工业应用的工业基准测试，并公开了其 Java 和 Python 代码及 OpenAI Gym 封装器。该基准测试设计为捕捉真实工业控制问题中常见情况的原型实验设置。

Sep, 2017

诊断和利用视频游戏的计算需求进行深度强化学习

通过提出学习挑战诊断器 (LCD) 并使用其在 Procgen 基准测试中发现新的挑战分类，研究报道了在优化深度强化学习算法时出现的多种失败情况，并为更高效的进展提供了一条路径。

Sep, 2023

在真实世界机器人上对强化学习算法进行基准测试

通过在多个商业机器人上实施我们引入的多个强化学习任务，通过对其四种增强学习算法的学习性能进行测试并分析其对超参数的灵敏度，揭示出这些算法的实际应用性。我们发现现代学习算法对超参数非常敏感，为了获得最佳性能需要为每个任务重新调整参数。

Sep, 2018

学习人类偏好以便推理奖励的可行性探讨

我们提出一种基于不可微分计划器的逆强化学习，用于推断从专家提供的演示中学习奖励函数，并与采用特定假设的数学模型相比，我们的方法可以得到更好的奖励推断，同时保持在数据驱动方法和已知人类偏差之间的平衡。

Jun, 2019

EvIL：演化策略用于可广泛应用的模仿学习

在仿真学习中，我们通过整合奖励模型集合以及使用演化策略方法 EvIL 来提高重新训练和迁移性能，同时加速目标环境中的重新训练，在连续控制任务中比之前的工作更加高效地重新训练策略。

Jun, 2024

发现最小的强化学习环境

通过元学习神经网络马尔可夫决策过程，我们发现专门的训练环境对于训练强化学习智能体具有潜在的速度提升能力，并且发现上下文为基的赌博机能够实现良好的评估环境转移，从而加速下游应用。

Jun, 2024

目标驱动的模仿学习

通过整合演示（demonstrations）的方法，本研究探讨如何加速强化学习的收敛速度，以达到能够到达任何目标的策略，并且在与其他模仿学习算法训练的代理相比表现更好。

Jun, 2019