BriefGPT.xyz
Ask
alpha
关键词
offline federated policy optimization
搜索结果 - 1
MM
基于双规范化的联邦离线策略优化
提出了一种名为 DRPO 的离线联邦策略优化算法,通过使用双重正则化来解决离线联邦强化学习中的两级分布变化问题,实现了分布式智能决策的显著性能提升。
PDF
a month ago
Prev
Next