BriefGPT.xyz
Ask
alpha
关键词
action-value function
搜索结果 - 2
EMOTE: 一种基于共情的可解释性建模他人的架构
通过设计 Imagination Network 对另一个玩家的行动价值函数进行建模,从而使学习代理产生类似于其他代理的行为,这种方法尤其适用于使用复合价值或奖励函数的算法,在多智能体游戏中产生更好的性能表现。
PDF
a year ago
VIREL:一种变分推断框架的强化学习
提出一种新的基于概率模型的强化学习方法 VIREL,通过应用参数化的动作值函数来总结底层 MDP 系统的未来动态,使 VIREL 具有 KL 散度的寻找峰值形式、自然地从推断中学习确定性最佳策略的能力和分别优化价值函数和策略的能力。通过对
→
PDF
6 years ago
Prev
Next