安全探索的环境特征解耦学习

ICMLAug, 2017

Decoupled Learning of Environment Characteristics for Safe Exploration

Pieter Van Molle, Tim Verbelen, Steven Bohez, Sam Leroux, Pieter Simoens...

TL;DR本文介绍了一种解耦环境特征与任务特定特征的方法，使得代理能够在同一环境下更好的进行任务迁移和新任务风险降低，研究结果表明，此方法能够更安全地利用先前知识。

Abstract

reinforcement learning is a proven technique for an agent to learn a task. However, when learning a task using reinforcement learning, the agent cannot distinguish the characteristics of the →

reinforcement learning environment task transfer agent training decoupled learning

发现论文，激发创造

引导安全探索的强化学习

安全是扩展强化学习应用的关键。我们提出了一种约束无奖励强化学习方法，通过在受控环境中训练引导智能体以安全探索，最终实现有效的安全传输学习，帮助学生机器人更快地解决目标任务。

Jul, 2023

分解环境的分阶段强化学习用于复杂任务

通过将复杂任务分解为多个子任务并在交通路口模拟中引入多智能体训练机制，本研究提出了两种方法来近似强化学习问题并改善代理人在复杂任务中的性能，从而减少潜在的安全问题。

Nov, 2023

解耦动态与奖励的迁移学习

本文提出了一种分离式学习策略，通过创造共享的表示空间来保证知识可以稳健地转移，分离学习任务表示，前向动力学，反向动力学和领域奖励函数，并表明这种分离可以提高任务内的性能并有效用于在线计划，在连续和离散 RL 领域中表现良好。

Apr, 2018

DEAR：无需重构的强化学习中解耦环境和智能体表示

强化学习算法可以通过视觉观察学习机器人控制任务，但在视觉场景复杂且无结构时通常需要大量数据。本文探讨了代理器对其形状的认知如何提高视觉强化学习方法的样本效率，提出了一种名为 DEAR 的新方法，通过特征分离约束使用代理器的分割掩模作为监督来学习环境和代理器的解耦表示，在强化学习目标上以这些表示为辅助损失，以鼓励代理器专注于环境的相关特征。我们在两个具有挑战性的基准测试上评估了 DEAR：Distracting DeepMind 控制套件和 Franka Kitchen 操纵任务。我们的研究结果表明，DEAR 在样本效率方面超越了最先进的方法，通过减少参数数量实现了与其相当或更优越的性能。我们的研究结果表明，将代理器的认知融入视觉强化学习方法具有提高学习效率和鲁棒性的潜力。

Jun, 2024

学习保证安全：带安全评论家的深度强化学习

为了将 RL 算法部署到实际场景中并在学习过程中确保安全性，我们提出了使用转移学习方法学习在一个任务环境中如何保持安全性，然后将所学用于约束在学习新任务时的行为，此方法在三个具有挑战性的领域中实证，相比于标准的深度 RL 技术和以前的安全 RL 方法，我们的方法不但减少了安全事故，还提高了学习的速度和稳定性。

Oct, 2020

无监督环境设计中有效的多样性

利用强化学习的自适应课程和基于新颖距离测量的方法训练代理来适应不同的环境设计，与其他无监督环境设计方法相比，证明了本方法在文献中使用的三个不同基准问题的多样性和有效性。

Jan, 2023

安全关键环境下的强化学习谨慎自适应

提出一种安全关键的适应性强化学习任务设置和解决方案 CARL，通过以多样化环境中的先前经验来评估风险，实现对新领域的谨慎探索并避免灾难状态，为城市驾驶等安全关键环境下的强化学习提供可行性。

Aug, 2020

探索是否足够？强化学习中用于迁移的有效探索特征

通过分析探索算法的特点和效果，我们研究了深度强化学习中的在线迁移学习，发现某些特征与多种迁移任务的有效性和效率改善相关，为特定迁移情况提供了有针对性的探索算法特征建议。

Apr, 2024

安全关键的强化学习中基于少量环境的泛化

本文研究深度强化学习中有限的训练环境对安全和泛化性能的影响，通过模型平均和使用阻塞分类器等简单方法，可显著降低在网格世界中的灾难情况，但在 CoinRun 环境中会存在一定失败率，然而可以通过系集的不确定性信息来预测是否需要人类干预。

Jul, 2019

自适应屏蔽在黑盒环境中的安全强化学习

在训练过程中，通过使用一种名为 ADVICE 的自适应屏蔽技术，可以识别出状态 - 动作对的安全和不安全特征，从而保护强化学习代理避免执行可能产生危险结果的动作，有效降低安全违规风险。

May, 2024