模型驱动的强化学习中规划器过拟合问题的缓解

Dec, 2018

模型驱动的强化学习中规划器过拟合问题的缓解

Mitigating Planner Overfitting in Model-Based Reinforcement Learning

PDF

Dilip Arumugam, David Abel, Kavosh Asadi, Nakul Gopalan, Christopher Grimm...

TL;DR探索一种中间立场，通过对其考虑的计划进行一种正则化来避免过度拟合，该论文提出了三种不同的方法，可在强化学习环境下明显缓解计划器过度拟合。

Abstract

An agent with an inaccurate model of its environment faces a difficult choice: it can ignore the errors in its →

agent model environment reinforcement-learning overfitting

发现论文，激发创造

强化学习的苦涩教训：行动者 - 评论家中的高估、过拟合和可塑性

通过在多个仿真场景中测试超过 60 种不同的 off-policy 智能体，并结合最新的正则化技术，我们发现适当进行正则化的简单 Soft Actor-Critic 智能体在解决狗任务方面表现出稳健而优越的性能。

Mar, 2024

基于模型的强化学习的自我纠正模型

本文从理论角度分析了 Hallucinated Replay 方法在模型有误的情况下的强化学习效果，提出了一种新的误差界，利用这种方法使确定性 MDPs 的强化学习算法更具有鲁棒性和性能保证。

Dec, 2016

有限模型容量下的选择性 Dyna-style 规划

该研究探讨了在模型不完备的情况下，通过估计预测不确定性（如起源于先验模型不充分的模型不适配性等因素）的方法，选择性地使用模型，以此提高强化学习算法的学习效果。

Jul, 2020

强化学习中的观测过拟合

本研究提供了一个分析模型自由的强化学习中可能出现过度拟合的情形的框架，我们对观测空间进行修改以设计多个综合性的基准测试，并通过实验展示了与隐式规范和泛化性之间的关联

Dec, 2019

深度强化学习中过拟合的研究

本论文对深度强化学习的过拟合现象进行了系统研究，发现过拟合可能会以不同方式发生，并且常用的随机性技术不一定能有效检测或预防过拟合，因此需要更加严谨的评估协议并研究感性偏差对泛化行为的影响。

Apr, 2018

基于能量模型的模型规范化计划

本研究讨论利用学习到的动力学模型进行规划，并提出使用环境状态转换的能量估计来规范该模型以实现样本有效学习，结果表明该方法可以在几分钟的经验中实现具有竞争力表现的学习。

Oct, 2019

模型基强化学习中的复合误差对抗学习

本文探讨了根据状态相关最大累积模型误差确定规划范围的技术及其与时间差分方法相结合的应用，实验结果表明，该算法相对于基准的基于模型和无模型方法可以显著提高策略学习效率。

Dec, 2019

风险敏感和鲁棒的基于模型的强化学习和规划

本研究主要关注序列决策算法中的不确定性和风险问题，通过探索规划和强化学习两种方法，尤其是面向基于模型算法的研究，旨在缓解 epistemic 和 aleatoric 不确定性问题。

Apr, 2023

高效深度强化学习需要控制过拟合

本文通过对 DeepMind 控制套件中的任务进行控制和系统性分析，研究了数据高效 RL 的瓶颈，发现高 TD 错误是深度强化学习算法性能严重影响的主要罪魁祸首，因此，在任何形式的监督学习中，利用任何形式的正则化技术，找到验证 TD 误差的最低点是使深度 RL 高效的一个强有力的原则。一个简单的在线模型选择方法针对验证 TD 错误在基于状态的 DMC 和 Gym 任务中也是有效的。

Apr, 2023

论规划在基于模型的深度强化学习中的作用

本文研究了 MuZero，一种先进的模型基强化学习算法在控制任务、Atari 游戏和 9x9 围棋等多种环境下的表现，阐述了规划在强化学习中的作用，以及如何在规划过程中优化算法，提高表现，并指出单独采用规划无法实现强的泛化能力。

Nov, 2020