BriefGPT.xyz
大模型
Ask
alpha
关键词
policy reuse
搜索结果 - 5
MM
一种安全且加速的基于深度强化学习的 O-RAN 切片的混合迁移学习方法
提出了使用深度强化学习 (DRL) 算法的开放无线接入网络 (O-RAN) 切片的转移学习 (TL) 辅助方法,通过政策复用和蒸馏转移学习方法实现了快速收敛和改进泛化能力,显著提高了初始奖励值和收敛场景百分比,减少了奖励方差。
PDF
10 months ago
CUP:批评指导的策略复用
提出了一种名为 Critic-guided Policy 的算法用于处理深度强化学习中的策略重用问题,通过使用评论家来评估并选择源策略,避免了训练额外的组件,该算法在有效的策略搜索方面表现出良好性能,胜过其它基准算法。
PDF
2 years ago
上下文感知策略复用
本文提出了一种名为 CAPS 的上下文感知策略重用方法,它学习何时和哪个源策略最适合重用以及何时终止其重用,从而提高了转移效率并保证了收敛和最优性。实验结果表明,CAPS 在网格导航领域和 Pygame 学习环境中明显优于其他最先进的策略重
→
PDF
6 years ago
贝叶斯策略复用
探讨了一种通过 Bayesian 优化和策略重用实现长期自主智能的方法,在短期任务执行中,利用一个预先训练的策略库中的策略来响应在线新任务实例,并通过探索和利用平衡策略库性能,实现了对交互式、短期连续任务领域的快速收敛。
PDF
9 years ago
连续迁移的聚类马尔可夫决策过程
本文提出了一种算法,通过生成一个小且有效的源子集,以实现在强化学习中的全生命周期,基于策略重用的传递学习,从而代表已经学习完最佳策略的一组 MDP。同时,提出了一个聚类的框架,用于提取源子集,并通过在监控领域的实验证实了算法的有效性。
PDF
11 years ago
Prev
Next