policy entropy | BriefGPT - AI 论文速递

关键词policy entropy

搜索结果 - 4

最大熵奖罚强化学习
我们介绍了 “soft Deep MaxPain”（softDMP）算法，将长期策略熵的优化整合到奖惩强化学习目标中，旨在提高样本效率和鲁棒性，并解决了前一篇 Deep MaxPain 方法中的两个问题，通过实证研究在两种离散马尔可夫决策过
PDFa month ago
具有真正不等约束的软演员 - 评论算法
本篇论文在软性演员批评的强化学习中加入松弛变量，以适当处理不等式约束，最大化策略熵，从而实现了更高的稳定性和更稳定的学习，适用于真实世界的机器人控制。
PDFa year ago
探究强化学习智能体在个性化任务中的策略熵
本研究旨在考察强化学习系统在个性化环境中的行为，说明不同类型的学习算法所产生的策略熵的差异。我们证明了在训练过程中，优化策略代理经常具有低熵策略，从而导致代理优先考虑某些动作而避免其他动作。相反，我们还展示了 Q - 学习代理很少受到这种行
PDF2 years ago
多元化演员 - 评论家：针对样本高效探索的样本感知熵正则化
提出了基于样本感知的策略熵正则化方法，以增强传统策略熵正则化方法用于探索的性能；通过利用回放缓存中可获取的样本分布，最大化加权和策略行为分布和缓存中样本行为分布的熵来完成对样本高效的探索。并基于提出的样本感知熵正则化方法，开发出了一个名为多
PDF4 years ago