BriefGPT.xyz
Ask
alpha
关键词
policy distribution
搜索结果 - 2
离线强化学习中的潜变量优势加权策略优化
本文提出了一种名为 LAPO(latent-variable advantage-weighted policy optimization)的方法,通过使用潜变量的策略来解决离线数据集分布偏移问题,取得了在多项任务中超越同类方法的显著性能提
→
PDF
2 years ago
使用规范化流策略改进软演员 - 评论家算法的探索能力
该研究提出了一种基于 Soft Actor Critic 算法的正态流策略分布模型,增加了模型的表达能力以提高稳定性和适应稀疏奖励环境下的探索能力。
PDF
5 years ago
Prev
Next