环境临近目标培训的意想不到的收获

Jan, 2024

环境临近目标培训的意想不到的收获

Look Around! Unexpected gains from training on environments in the vicinity of the target

Serena Bono, Spandan Madan, Ishaan Grover, Mao Yasueda, Cynthia Breazeal...

TL;DR通过添加可量化的参数噪声到训练的转移函数中，在新的环境中评估增强学习代理的推广能力。我们展示了在 60 个不同的 ATARI 游戏变体中，包括 PacMan、Pong 和 Breakout，通过在替代的噪声设置下训练代理能获得较好的结果。

Abstract

Solutions to markov decision processes (MDP) are often very sensitive to state transition probabilities. As the estimation of these probabilities is often inaccurate in practice, it is important to understand whe

markov decision processes reinforcement learning transition probabilities generalization noise injection

发现论文，激发创造

发现最小的强化学习环境

通过元学习神经网络马尔可夫决策过程，我们发现专门的训练环境对于训练强化学习智能体具有潜在的速度提升能力，并且发现上下文为基的赌博机能够实现良好的评估环境转移，从而加速下游应用。

Jun, 2024

网络随机化：增强学习中通用的简单技术

本文提出一种简单有效的技术，通过引入随机卷积神经网络打乱输入观测数据，在提高深度强化学习智能体的泛化能力方面取得了显著效果，并且通过 Monte Carlo 近似的推理方法来减少随机化引起的方差。我们在 2D CoinRun、3D DeepMind Lab 探索和 3D 机器人控制任务中展示了我们的方法的优越性，相比于其他正则化和数据增强方法明显更加优秀。

Oct, 2019

增强学习的简单噪声环境增强

本文介绍了针对强化学习 (RL) 的数据增强技术，旨在提高 RL 算法在不同环境下的表现效果，包括引入噪声、探索状态空间和改善训练数据的多样性。作者提出了两种新的增强技术，并在三种常用的 RL 算法和五个 MuJoCo 环境中进行实验研究，结果表明增强技术对增加回报有积极作用。

May, 2023

由学习的环境模型指导的部分可观测性下的强化学习

本文提出了一种基于 Q-learning 和 IoAlergia 的强化学习方法，用于处理部分可观察环境下的控制系统策略生成，将 RL 与学习环境模型相结合以提供抽象的环境状态获取。实验结果表明，该方法在性能表现上优于六种当下的深度 RL 技术。

Jun, 2022

无监督环境设计中有效的多样性

利用强化学习的自适应课程和基于新颖距离测量的方法训练代理来适应不同的环境设计，与其他无监督环境设计方法相比，证明了本方法在文献中使用的三个不同基准问题的多样性和有效性。

Jan, 2023

参数空间噪声用于探索

通过将参数噪声与传统深度强化学习方法相结合，可以在高维离散行动环境和连续控制任务中比传统深度强化学习方法和进化策略更有效地学习，并且在离散和连续领域中参数噪声会比动作空间噪声更优秀。

Jun, 2017

噪声蒸馏下的上下文强化学习的出现

通过与环境的交互实现对未知任务的概括，我们提出了一种方法 AD^ε，该方法通过人类示范的较差策略引入噪音并逐渐改进，实现了多任务环境下的增量式学习。在 Dark Room 和 Dark Key-to-Door 环境中，我们的方法相比于最佳策略改进了 2 倍。

Dec, 2023

针对状态观测的鲁棒深度强化学习对抗扰动

通过提出状态对抗马尔可夫决策过程 (SA-MDP) 的理论框架和一种新的策略正则化方法，并在多个强白盒对抗攻击中测试，我们成功地提高了一系列深层强化学习算法在离散和连续动作控制问题上的鲁棒性。

Mar, 2020

多智能体环境的动态噪声可提升泛化能力：基于智能体模型的强化学习方法

本文研究了基于智能体模型的强化学习环境的好处。通过对比微分方程和智能体模型基础的流行病 SIR 环境的控制，数值模拟结果表明使用智能体模型的 SIR 模型固有噪声不仅可以提高平均奖励，还能让 RL 智能体在更广范围的流行病参数范围内进行泛化。

Mar, 2022

利用隐空间动态模型的信息最大化探索

本文提出一种基于模型行动选择的强化学习方法，该方法在价值函数的潜在特征空间中学习动态模型，实现机器人和环境的动态表示和模型自我激励，从而解决传统方法当中的探索与利用权衡问题，并使用贝叶斯信息理论方法在高维状态空间中实现高效的计算。我们在多个连续控制任务中评估了该方法的性能，重点是改善探索。

Apr, 2018