熵正则化的基于点的价值迭代

Feb, 2024

Entropy-regularized Point-based Value Iteration

Harrison Delecki, Marcell Vazquez-Chanlatte, Esen Yel, Kyle Wray, Tomer Arnon...

TL;DR模型基于策划者在部分可观测问题中必须适应策划过程中的模型和目标不确定性。受无模型设置的结果启发，我们提出了一种熵正则化的模型基于策划者来解决部分可观测问题。通过鼓励策略在规划和目标推理中不过度承诺单一行动，熵正则化提升了策略的鲁棒性和目标推理性能。我们在三个问题领域评估了熵正则化策略的鲁棒性和目标推理性能，并结果显示，在模型错误下的期望回报更高，目标推理中的准确性更高。

Abstract

model-based planners for partially observable problems must accommodate both model uncertainty during planning and →

model-based planners partially observable problems model uncertainty goal uncertainty entropy-regularized policies

发现论文，激发创造

熵正则化马尔科夫决策过程的统一视角

提出一种针对 Markov 决策过程的熵正则化平均回报强化学习的一般性框架，通过使用条件熵来对联合状态 - 动作分布进行正则化，将一些先进的熵 - 正则化强化学习算法形式化为 Mirror Descent 或 Dual Averaging 的近似变体，并在简单的强化学习实验中展示了各种正则化技术对学习性能的影响。

May, 2017

熵对策略优化的影响理解

本文研究了使用熵正则化提高强化学习策略优化的方法，探讨了高熵策略能使得优化过程更为平滑，从而帮助穿过局部优化点，但挑战在于设计通用的策略优化算法。

Nov, 2018

神经符号熵正则化

本文介绍了一种统一 neuro-symbolic 和 entropy regularization 的框架，并提出了一种神经符号熵正则化损失函数，用于半监督和全监督结构化预测实验中的有效性测试。

Jan, 2022

可证明高效的最大熵探索

该研究采用条件梯度法，利用近似 MDP 求解器提供高效算法，解决了在没有奖励信号的情况下对一类内在目标进行优化的问题。

Dec, 2018

策略优化在正则化广义和 LQ 博弈中找到纳什均衡

研究引入相对熵正则化对 General-Sum $N$-agent games 的 Nash Equilibria 的影响，揭示了该类游戏的 NE 符合线性高斯策略。此外，本文提出了符合熵正则化充分条件的 NE 唯一性，并证明了在 Policy Optimization 算法中线性收敛性，该算法在熵正则化充分条件下能达到 NE。此外，在熵正则化不足的情况下，我们还提出了一种 δ 增强技术，可实现游戏中的 ε-NE。

Mar, 2024

带熵正则化的约束马尔可夫决策过程的双重方法

研究了采用软最大化参数化的熵正则化约束马尔可夫决策过程及其 Lagrange 对偶函数和约束违规等问题。并提出了加速对偶下降方法以实现全局收敛性。

Oct, 2021

一种用于动作 - 状态熵正则化奖励最大化的通用马尔可夫决策过程形式化方法

提供将约束优化问题转换为无约束凸优化问题的一般性双重函数形式主义，适用于动作和状态熵的任意混合，其中，动作熵和状态熵的纯形式被理解为混合的极限。这解决了前人关于动作、状态和混合熵正则化、纯探索和空间占用等问题的解决方案很麻烦的难题。

Feb, 2023

用于规划的矢量量化模型

使用离散自编码器来处理动作在随机环境中引起的多种可能性，再结合随机版 Monte Carlo 树搜索算法规划代理的动作和代表环境反应的离散潜变量，明显优于 MuZero 在处理随机国际象棋和 DeepMind Lab 等部分观测模型的 RL 问题中的表现。

Jun, 2021

正则化马尔科夫决策过程理论

本文提出了一种正则化的马尔可夫决策过程的一般理论，结合正则化贝尔曼算子和 Legendre-Fenchel 变换，可以分析诸如 Trust Region Policy Optimization、Soft Q-learning、Stochastic Actor Critic 或 Dynamic Policy Programming 等经典算法的错误传播分析，并与 Mirror Descent 进行了连接。

Jan, 2019

连续时间与空间中的策略镜像下降熵退火

熵正则化在政策优化中被广泛使用，有助于优化收敛，本文通过分析连续时间政策镜像下降动态，证明了固定熵水平下的动态指数级收敛到正则化问题的最优解，并通过调整熵正则化的衰减速率得出在离散和一般动作空间中的收敛速率。

May, 2024