通过熵率最小化实现可预测的强化学习动力学

Nov, 2023

通过熵率最小化实现可预测的强化学习动力学

Predictable Reinforcement Learning Dynamics through Entropy Rate Minimization

Daniel Jarne Ornia, Giannis Delimpaltadakis, Jens Kober, Javier Alonso-Mora

TL;DR提出一种名为可预测性感知强化学习 (Predictability-Aware RL，PA-RL) 的新方法，利用状态序列熵率作为可预测性度量，通过引入基于动作的替代熵来实现行为的可预测性，从而在人机互动场景的强化学习任务中产生更可预测的行为并实现接近最优奖励。

Abstract

In reinforcement learning (RL), agents have no incentive to exhibit predictable behaviors, and are often pushed (through e.g. policy entropy regularization) to randomize their actions in favor of exploration. Fro

reinforcement learning predictable behavior exploration policy entropy regularization predictability-aware rl

发现论文，激发创造

探究强化学习智能体在个性化任务中的策略熵

本研究旨在考察强化学习系统在个性化环境中的行为，说明不同类型的学习算法所产生的策略熵的差异。我们证明了在训练过程中，优化策略代理经常具有低熵策略，从而导致代理优先考虑某些动作而避免其他动作。相反，我们还展示了 Q - 学习代理很少受到这种行为的影响，并且通常在整个训练过程中保持高熵策略，在实际应用中这通常更可取。我们提供了广泛的数值实验证明和理论证明来表明，这些熵差异是由所采用的学习类型引起的。

Nov, 2022

熵正则化马尔科夫决策过程的统一视角

提出一种针对 Markov 决策过程的熵正则化平均回报强化学习的一般性框架，通过使用条件熵来对联合状态 - 动作分布进行正则化，将一些先进的熵 - 正则化强化学习算法形式化为 Mirror Descent 或 Dual Averaging 的近似变体，并在简单的强化学习实验中展示了各种正则化技术对学习性能的影响。

May, 2017

通过预测奖励最大化部分可观测环境中的信息增益

本文着眼于使用基于信念的奖励机制进行深度强化学习，提出了通过最大化任何凸函数的信念来实现近似的预测奖励，为深度强化学习的应用提供了新的解决方案，包括构建跟踪人员的传感器选择系统和学习时尚 MNIST 和 MNIST 数字分类的离散注意力模型等。

May, 2020

自适应惊喜内在动机的无监督强化学习

提出了一个基于多臂赌博机问题的代理模型，该模型根据环境的熵条件动态调整目标，从而鼓励在不同熵环境中出现新的行为和学习技能。

May, 2024

深度强化学习中的鲁棒策略优化

本文介绍了一种名为 Robust Policy Optimization 的算法，该算法应用于强化学习中，利用扰动分布来提高策略的熵，提高探索性能，取得了比 PPO 等算法更好的性能表现，并在多个环境中表现出鲁棒性能。

Dec, 2022

通过最大化 Rényi 熵进行无奖励强化学习框架探索

通过最大化 Renyi 熵的方法，提出了一种适用于元 RL 的无奖励强化学习框架，该框架有效地解决了探索和利用分离的问题，并设计了相应的强化学习算法 (batch RL algorithm) 以便在规划阶段中能更好地处理任意奖励函数。

Jun, 2020

基于自由能原理的在观测噪声下无害探索的内在回报的模拟研究

在强化学习中，人工智能代理通过执行任务来最大化数值奖励，探索是至关重要的，因为代理必须在利用之前发现信息。熵和好奇心是促进有效探索的两种奖励方式。这篇论文基于自由能原理（FEP）提出了隐藏状态好奇心，并发现熵和好奇心可以实现高效探索，特别是两者结合。特别是，在好奇心陷阱方面，具有隐藏状态好奇心的代理展示出了韧性，而预测误差好奇心的代理则受到了干扰。这表明实施 FEP 可能增强强化学习模型的鲁棒性和泛化性，并潜在地调整人工和生物代理的学习过程。

May, 2024

最大熵强化学习 (可证明地) 解决了一些鲁棒强化学习问题

该论文证明了最大熵（MaxEnt）强化学习可以用于学习对某些动态干扰和奖励函数干扰具有鲁棒性的策略，是一种简单并具有吸引力形式保证的鲁棒强化学习方法。

Mar, 2021

最大因果熵限制的强化学习

提出一种基于最大因果熵的方法来学习环境约束下的最优策略，该方法利用在约束下运作的代理的演示进行学习，证明了其在表格设置中的收敛性并提供了一个可扩展到复杂环境的近似值。通过评估奖励和约束违规数，评估学习策略的有效性，并基于其在其他代理中的可转移性评估学习成本函数。此方法已经在各种任务和环境中表现优于现有技术，能够处理具有随机动态和连续状态动作空间的问题。

May, 2023

强化学习中利用 Rényi 状态熵加速探索

为解决深度强化学习中的长期探索能力问题，本文提出了一种基于 Rényi 熵的新型内在奖励模块，并通过较广泛的模拟结果证明了其高于现有方案的性能。

Mar, 2022