本文探讨了当测试目标分布过于远离时,多目标强化学习应当追求怎样的目标,提出了优化历史完成目标分布熵的内在目标,通过在目标空间中极少被探索区域内的历史完成目标的追求实现探索,成功提高了长期目标任务中的数据利用效率。
Jul, 2020
该论文证明了最大熵(MaxEnt)强化学习可以用于学习对某些动态干扰和奖励函数干扰具有鲁棒性的策略,是一种简单并具有吸引力形式保证的鲁棒强化学习方法。
Mar, 2021
提出一种基于最大因果熵的方法来学习环境约束下的最优策略,该方法利用在约束下运作的代理的演示进行学习,证明了其在表格设置中的收敛性并提供了一个可扩展到复杂环境的近似值。通过评估奖励和约束违规数,评估学习策略的有效性,并基于其在其他代理中的可转移性评估学习成本函数。此方法已经在各种任务和环境中表现优于现有技术,能够处理具有随机动态和连续状态动作空间的问题。
May, 2023
通过最大化 Renyi 熵的方法,提出了一种适用于元 RL 的无奖励强化学习框架,该框架有效地解决了探索和利用分离的问题,并设计了相应的强化学习算法 (batch RL algorithm) 以便在规划阶段中能更好地处理任意奖励函数。
Jun, 2020
强化学习是解决环境并实现目标达成的框架,该研究提出了一种灵活的算法来提升学习效率并确保目标达成的性质。通过实验证明,该算法能够增强学习效果并保持目标的达成性质。
May, 2024
本文提出了一种新的深度强化学习算法,利用基于熵正则化的期望回报目标推导出软策略梯度,将其与软 Bellman 方程相结合,得到了名为 DSPG 的最大熵深度强化学习算法,该算法采用双重采样方法确保学习的稳定性,有效提高了表现,克服了已有方法在大规模离线数据训练以及具有高维动作状态问题的稳定性不足等问题。
Sep, 2019
提出一种针对 Markov 决策过程的熵正则化平均回报强化学习的一般性框架,通过使用条件熵来对联合状态 - 动作分布进行正则化,将一些先进的熵 - 正则化强化学习算法形式化为 Mirror Descent 或 Dual Averaging 的近似变体,并在简单的强化学习实验中展示了各种正则化技术对学习性能的影响。
May, 2017
提出了一个基于多臂赌博机问题的代理模型,该模型根据环境的熵条件动态调整目标,从而鼓励在不同熵环境中出现新的行为和学习技能。
基于策略梯度的强化学习代理为了多样性,探究了正则化对行动多样性的影响,并通过实验结果证明了多样性促进的策略正则化在个性化任务的性能提升方面具有显著优势,同时不损失准确性。
Oct, 2023
本文研究熵作为内在奖励的效果,并在一种普遍的 MaxEnt RL 方法 —— 软性演员 - 评论家(SAC)中进行各种消融研究。我们发现熵奖励应谨慎用于策略评估,并且仅使用熵正则化来进行策略改进可获得可比甚至更好的性能和鲁棒性。因此,我们建议要么将熵奖励归一化为零平均值(SACZero),要么仅仅从策略评估中删除它(SACLite)以获得更好的实际结果。
Jan, 2022