BriefGPT.xyz
Ask
alpha
关键词
contextual policies
搜索结果 - 2
深度多智能体强化学习中的斯塔克伯格均衡:神谕和追随者
本研究提出了一种将 Stackelberg 平衡搜索实现为多智能体强化学习问题的通用框架,并借助多任务和元强化学习技术实现了一种使用情境策略的方法,在标准和新颖的基准领域上进行了实验,并显示出较以前的方法大大提高的样本效率。同时,我们探讨了
→
PDF
2 years ago
DisCo RL: 面向通用策略的分布条件强化学习
本文提出了一种基于目标分布的通用任务表征方法,通过该方法可以实现针对不同任务的灵活重用技能,并开发了一种离策略算法 (Distribution-Conditioned Reinforcement Learning, DisCo RL) 来高
→
PDF
3 years ago
Prev
Next