基于深度代理的环境生成

Jun, 2022

Deep Surrogate Assisted Generation of Environments

Varun Bhatt, Bryon Tjanaka, Matthew C. Fontaine, Stefanos Nikolaidis

TL;DR本论文介绍了一种深度代理辅助环境生成技术（DSAGE）, 该技术可以有效生成高质量、多样化的环境，以探索最先进的强化学习和规划代理的多样行为。

Abstract

Recent progress in reinforcement learning (RL) has started producing generally capable agents that can solve a distribution of complex environments. These agents are typically tested on fixed, human-authored environments. On the other hand, quality diversity (QD) optimization has been

reinforcement learning quality diversity optimization environment generation deep surrogate model sample-efficient

发现论文，激发创造

无监督环境设计中有效的多样性

利用强化学习的自适应课程和基于新颖距离测量的方法训练代理来适应不同的环境设计，与其他无监督环境设计方法相比，证明了本方法在文献中使用的三个不同基准问题的多样性和有效性。

Jan, 2023

质量多样性强化学习的近端策略梯度树形结构

本文介绍如何使用高通量模拟器和在线学习方法相结合的 QD-RL 算法来训练能够在未知动态环境下表现良好的机器人，PPGA 算法在人形机器人领域实现了 4 倍的改进。

May, 2023

非监督环境设计引发的新兴复杂性和零 - shot 迁移

本文提出一种名为 “PAIRED” 的技术，可自动设计一系列结构化的智能环境用于训练机器学习模型，实验证明 PAIRED 相较于传统方法在零样本迁移学习及新颖环境下的测试表现更优。

Dec, 2020

强化学习中可微分多样性的梯度逼近

探讨在训练鲁棒性强的机器人智能体中，使用多样化的代理策略以提高质量多样性优化问题的效率。通过两种导数近似方法实现多样性质量优化算法，并使用四种机器人仿真测试其性能，揭示当前算法在需要近似梯度的领域中的局限性。

Feb, 2022

使用代理模型测试深度强化学习代理

使用基于搜索的方法的 Indago 工具，通过在深度强化学习中训练分类器来预测特定环境配置下机器学习代理的故障情况，以此作为适应度函数来生成更多故障环境配置，实验结果表明，此方法比现有技术多发现 50％的深度强化学习代理的故障

May, 2023

强化学习任务导向对话管理基准测试环境

本文旨在提供用于对话模型开发与评估的一组具有挑战性的模拟环境，其中包括常用的参数算法和非参数算法，并使用公共 PyDial 工具包实现了这些环境和策略模型，以建立一个实验测试平台并促进可重现性的实验。

Nov, 2017

SAGE: 深度强化学习中为近视模型生成符号化目标

本文提出新的算法 SAGE，结合符号性规划与神经网络学习等方法，以克服传统模型的局限，更高效地解决基于模型的强化学习在处理部分了解环境时遇到的问题。该算法在出租车环境和 Minecraft 等变化场景中的表现优于其他方法。

Mar, 2022

通过对抗环境设计发现通用的强化学习算法

通过分析元训练分布的特征对学习策略的泛化性能的影响，并结合无监督环境设计的思想，提出一种通过环境设计获得的通用强化学习优化器的新方法（GROOVE），该方法在一系列实验中展现了优于现有算法的泛化能力，并将算法遗憾（AR）作为环境设计中的关键组成部分加以评估。我们认为这一方法是朝着实现真正通用能解决各种现实环境的强化学习算法的一步。

Oct, 2023

自我对战中的多样性诱导环境设计

本文提出了一种多样性诱导的环境设计框架，将自适应课程学习与自我博弈相结合，以找到更加有效的不受监督的环境设计，取得了比现有方法更好的性能。

Feb, 2023

程序化生成环境下高效演示逆强化学习

通过有限集的初始种子和一些训练稳定的修改，我们提出了一种基于对抗性反向强化学习的技术，名为 DE-AIRL，该技术能够显著减少对专家演示的需求，并仍能够将回报函数外推到完全程序化域，我们在 MiniGrid 和 DeepCrawl 的两个程序化环境中展示了我们的技术的有效性。

Dec, 2020