BriefGPT.xyz
Ask
alpha
关键词
gradient conflict problem
搜索结果 - 1
元元强化学习个性化策略的收敛理论
该论文提出了一种个性化元强化学习算法 (pMeta-RL),旨在解决元强化学习中的梯度冲突问题,该算法将任务特定的个性化策略汇总以更新用于所有任务的元策略,同时保持个性化策略以最大化每个任务的平均回报。该算法在离散和连续控制任务中的实验表明
→
PDF
2 years ago
Prev
Next