BriefGPT.xyz
Ask
alpha
关键词
hybrid reward architecture
搜索结果 - 1
强化学习的混合奖励体系结构
本文介绍了一种新的强化学习方法 —— 混合奖励架构(HRA),通过利用分解奖励函数并为每个组成部分学习单独的价值函数来实现应对价值函数无法轻易降维的领域的挑战。在获得 Ms. Pac-Man 游戏高于人类成绩的优异表现后,证明了 HRA 在
→
PDF
7 years ago
Prev
Next