强化学习中的最大熵模型修正

Nov, 2023

Maximum Entropy Model Correction in Reinforcement Learning

Amin Rakhsha, Mete Kemertas, Mohammad Ghavamzadeh, Amir-massoud Farahmand

TL;DR我们提出并理论分析了一种在强化学习中使用近似模型进行规划的方法，可以减少模型误差的不利影响，并且如果模型足够准确，还可以加速收敛到真实值函数。其中一个关键组成部分是基于最大熵密度估计形式的 MaxEnt 模型校正（MoCo）过程，该过程根据下一个状态的分布来纠正模型。基于 MoCo，我们引入了模型修正值迭代（MoCoVI）算法及其基于采样的变体 MoCoDyna。我们表明，MoCoVI 和 MoCoDyna 的收敛速度比传统的无模型算法要快得多。与传统的模型算法不同，MoCoVI 和 MoCoDyna 有效地利用近似模型，并且仍然收敛到正确的值函数。

Abstract

We propose and theoretically analyze an approach for planning with an approximate model in reinforcement learning that can reduce the adverse impact of model error. If the model is accurate enough, it accelerates

reinforcement learning model error maxent model correction model correcting value iteration mocodyna

发现论文，激发创造

最大熵模型推出：快速基于模型的策略优化，无需累计误差

本文提出一种最大熵模型回滚算法以解决深度神经网络动力学模型在长期预测时的累积误差问题。作者通过非均匀采样环境状态生成多样性模型回滚，并使用优先经验重放来完成最大熵采样标准。初步实验表明，该算法在效率和性能上都优于其他模型预测算法。

Jun, 2020

最大熵强化学习 (可证明地) 解决了一些鲁棒强化学习问题

该论文证明了最大熵（MaxEnt）强化学习可以用于学习对某些动态干扰和奖励函数干扰具有鲁棒性的策略，是一种简单并具有吸引力形式保证的鲁棒强化学习方法。

Mar, 2021

基于模型的价值估计，用于高效的无模型强化学习

本文提出了一种基于模型的价值拓展方法，通过限制想象的深度，控制模型的不确定性，提高了模型自由强化学习算法中学习价值估计的样本复杂度，针对连续控制任务使用了学习到的动态模型。

Feb, 2018

具有模型误差的连续控制强化学习

提供了一个框架，可将稳健性合并到持续控制强化学习算法中，通过学习最优策略并推导相应的鲁棒性熵正则化贝尔曼收缩算子来实现，并进一步引入了较不保守的软稳健熵正则化目标及相应贝尔曼算子，实验证明在九个领域的环境扰动及高维度的机器人控制方面，稳健和软稳健策略均优于无鲁棒性策略，并提供了多个探究实验来深入理解框架的其它特性。

Jun, 2019

模型不匹配下的强化学习

论文研究了缺失真实环境信息的强化学习问题，将鲁棒 MDP 框架扩展到无模型参数条件下的 RL 设置中，提出了三个具有鲁棒性的 Q-learning、SARSA 和 TD-learning 算法，并通过函数逼近扩展到大规模 MDPs，证明了其收敛性，并给出了保证局部最小的随机梯度下降算法。

Jun, 2017

马尔可夫决策过程中的主动模型估计

本文研究了基于 Markov 决策过程 (MDP) 环境中的精确建模的高效探索问题，提出一种以加权熵为基础的算法用于解决贪心算法在探索初阶段表现较差的问题，并在简单的具有异构噪音的两个问题上进行了验证。

Mar, 2020

预测校正策略优化

本研究提出一种基于预测模型的框架 PicCoLO，可将一阶模型无关强化或模仿学习算法转化为一种新的混合方法，用于优化策略，减少模型偏差及实现收敛加速。该框架通过对可预测在线学习转换为对抗学习的新颖减少方法，使得多种一阶模型无关算法的收敛速度得到提高。

Oct, 2018

压缩与控制

本文提出了一种新的信息论政策评估技术，该技术将任何压缩或密度模型转化为相应的值估计，研究了该技术在 Atari 2600 视频游戏中的应用，发现该技术提供足够准确的价值估计来有效地进行政策控制，并指出该技术在规模化问题上具有潜在的应用前景。

Nov, 2014

最大因果熵限制的强化学习

提出一种基于最大因果熵的方法来学习环境约束下的最优策略，该方法利用在约束下运作的代理的演示进行学习，证明了其在表格设置中的收敛性并提供了一个可扩展到复杂环境的近似值。通过评估奖励和约束违规数，评估学习策略的有效性，并基于其在其他代理中的可转移性评估学习成本函数。此方法已经在各种任务和环境中表现优于现有技术，能够处理具有随机动态和连续状态动作空间的问题。

May, 2023

广义最大熵估计

本文提出了一个基于凸规划对偶性的新的近似方案，使用平滑的快速梯度方法来估计最大化熵的概率分布，同时满足一定数量的被噪声污染的时刻约束，进一步阐述了如何通过该方案来近似化学主方程和解决具有无穷状态和动作空间的约束马尔可夫决策过程的问题。

Aug, 2017