探究强化学习智能体在个性化任务中的策略熵

Nov, 2022

探究强化学习智能体在个性化任务中的策略熵

Examining Policy Entropy of Reinforcement Learning Agents for Personalization Tasks

Anton Dereventsov, Andrew Starnes, Clayton G. Webster

TL;DR本研究旨在考察强化学习系统在个性化环境中的行为，说明不同类型的学习算法所产生的策略熵的差异。我们证明了在训练过程中，优化策略代理经常具有低熵策略，从而导致代理优先考虑某些动作而避免其他动作。相反，我们还展示了 Q - 学习代理很少受到这种行为的影响，并且通常在整个训练过程中保持高熵策略，在实际应用中这通常更可取。我们提供了广泛的数值实验证明和理论证明来表明，这些熵差异是由所采用的学习类型引起的。

Abstract

This effort is focused on examining the behavior of reinforcement learning systems in personalization environments and detailing the differences in policy entropy associated with the type of learning algorithm ut

reinforcement learning personalization policy entropy policy optimization q-learning

发现论文，激发创造

提高熵以提升个性化任务的政策梯度性能

基于策略梯度的强化学习代理为了多样性，探究了正则化对行动多样性的影响，并通过实验结果证明了多样性促进的策略正则化在个性化任务的性能提升方面具有显著优势，同时不损失准确性。

Oct, 2023

通过熵率最小化实现可预测的强化学习动力学

提出一种名为可预测性感知强化学习 (Predictability-Aware RL，PA-RL) 的新方法，利用状态序列熵率作为可预测性度量，通过引入基于动作的替代熵来实现行为的可预测性，从而在人机互动场景的强化学习任务中产生更可预测的行为并实现接近最优奖励。

Nov, 2023

深度强化学习中的鲁棒策略优化

本文介绍了一种名为 Robust Policy Optimization 的算法，该算法应用于强化学习中，利用扰动分布来提高策略的熵，提高探索性能，取得了比 PPO 等算法更好的性能表现，并在多个环境中表现出鲁棒性能。

Dec, 2022

熵对策略优化的影响理解

本文研究了使用熵正则化提高强化学习策略优化的方法，探讨了高熵策略能使得优化过程更为平滑，从而帮助穿过局部优化点，但挑战在于设计通用的策略优化算法。

Nov, 2018

最大因果熵限制的强化学习

提出一种基于最大因果熵的方法来学习环境约束下的最优策略，该方法利用在约束下运作的代理的演示进行学习，证明了其在表格设置中的收敛性并提供了一个可扩展到复杂环境的近似值。通过评估奖励和约束违规数，评估学习策略的有效性，并基于其在其他代理中的可转移性评估学习成本函数。此方法已经在各种任务和环境中表现优于现有技术，能够处理具有随机动态和连续状态动作空间的问题。

May, 2023

实践中是否需要熵奖励？

本文研究熵作为内在奖励的效果，并在一种普遍的 MaxEnt RL 方法 —— 软性演员 - 评论家（SAC）中进行各种消融研究。我们发现熵奖励应谨慎用于策略评估，并且仅使用熵正则化来进行策略改进可获得可比甚至更好的性能和鲁棒性。因此，我们建议要么将熵奖励归一化为零平均值（SACZero），要么仅仅从策略评估中删除它（SACLite）以获得更好的实际结果。

Jan, 2022

最优政策往往追求权力

在强化学习中，我们证明了某些环境的对称性足以使最优策略倾向于在环境中寻求更多的控制力，以达到最大化平均奖励的目的。

Dec, 2019

策略优化在正则化广义和 LQ 博弈中找到纳什均衡

研究引入相对熵正则化对 General-Sum $N$-agent games 的 Nash Equilibria 的影响，揭示了该类游戏的 NE 符合线性高斯策略。此外，本文提出了符合熵正则化充分条件的 NE 唯一性，并证明了在 Policy Optimization 算法中线性收敛性，该算法在熵正则化充分条件下能达到 NE。此外，在熵正则化不足的情况下，我们还提出了一种 δ 增强技术，可实现游戏中的 ε-NE。

Mar, 2024

针对智能代理人自然语言交流的定期策略优化

提出一个可以通过联合推理视觉观察和语言输入来学习自然语言指令的新型策略优化算法，该训练范式提供了有效的探索和更好的泛化能力，相比现有的集成模型，我们提出的最佳模型在块世界环境中的执行错误率可以大幅降低超过 50％，同时还包括系统性的研究以展示我们 RL 算法的探索策略。

Jun, 2018

政策梯度背后的探索神话

我们提出了一种新的分析方法，并区分了探索技术的两个不同影响。首先，它们使得能够平滑学习目标并消除局部最优解，同时保留全局最优解。其次，它们修改了梯度估计，增加了随机参数更新最终提供最优策略的概率。在这些影响的基础上，我们讨论并通过熵奖励进行了实证研究，突出了其局限性，并为该策略的设计和分析开辟了未来的研究方向。

Jan, 2024