policy reuse | BriefGPT - AI 论文速递

关键词policy reuse

搜索结果 - 5

MM一种安全且加速的基于深度强化学习的 O-RAN 切片的混合迁移学习方法
提出了使用深度强化学习 (DRL) 算法的开放无线接入网络 (O-RAN) 切片的转移学习 (TL) 辅助方法，通过政策复用和蒸馏转移学习方法实现了快速收敛和改进泛化能力，显著提高了初始奖励值和收敛场景百分比，减少了奖励方差。
PDF10 months ago
CUP：批评指导的策略复用
提出了一种名为 Critic-guided Policy 的算法用于处理深度强化学习中的策略重用问题，通过使用评论家来评估并选择源策略，避免了训练额外的组件，该算法在有效的策略搜索方面表现出良好性能，胜过其它基准算法。
PDF2 years ago
上下文感知策略复用
本文提出了一种名为 CAPS 的上下文感知策略重用方法，它学习何时和哪个源策略最适合重用以及何时终止其重用，从而提高了转移效率并保证了收敛和最优性。实验结果表明，CAPS 在网格导航领域和 Pygame 学习环境中明显优于其他最先进的策略重
PDF6 years ago
贝叶斯策略复用
探讨了一种通过 Bayesian 优化和策略重用实现长期自主智能的方法，在短期任务执行中，利用一个预先训练的策略库中的策略来响应在线新任务实例，并通过探索和利用平衡策略库性能，实现了对交互式、短期连续任务领域的快速收敛。
PDF9 years ago
连续迁移的聚类马尔可夫决策过程
本文提出了一种算法，通过生成一个小且有效的源子集，以实现在强化学习中的全生命周期，基于策略重用的传递学习，从而代表已经学习完最佳策略的一组 MDP。同时，提出了一个聚类的框架，用于提取源子集，并通过在监控领域的实验证实了算法的有效性。
PDF11 years ago