BriefGPT.xyz
Ask
alpha
关键词
sub-policies
搜索结果 - 3
保持多样轨迹:促进连续控制中集合策略的探索
通过使用深度强化学习和集成方法,我们提出了一种新的集成强化学习算法 TEEN,在实验证明 TEEN 相对于仅使用子策略能够增加集成策略的样本多样性,并且在性能上表现更好,平均而言 TEEN 在经过测试的代表性环境中比基线集成强化学习算法的性
→
PDF
9 months ago
变量决策频率选项评论家
本研究提出一种名为 CTCO 的框架,使学习智能体通过选择变量持续时间的子策略来实现在可能的情况下以低频率运作,并在必要时以高频率运作,从而克服了决策频率选择的困难。
PDF
2 years ago
基于贝叶斯策略网络的深度强化学习 Soft Actor-Critic 算法
本文提出了一种新颖的基于贝叶斯链的层次策略分解方法,将策略分解为多个简单的子策略,并将它们的关系组织为贝叶斯策略网络,将其集成到最先进的深度强化学习方法中,即软性演员批评家模型(SAC),并构建相应的贝叶斯软性演员批评家模型(BSAC),这
→
PDF
2 years ago
Prev
Next