BriefGPT.xyz
Ask
alpha
关键词
action distribution
搜索结果 - 2
通过占用度量规范化防止奖励攻击
奖励破解是指代理根据「代理」奖励函数(可以是手动指定或学习得到的函数)表现出色,但在未知真实奖励方面表现差。我们提出根据状态占据度测量建立正则化模型,以代替行动分布来避免奖励破解,并进行理论和实证研究验证。
PDF
4 months ago
多目标策略优化的分布式视角
本文提出了一种用于多目标强化学习的新算法,可以以一种无量纲的方式设置目标的偏好,并且通过学习行动分布和拟合参数策略来在高维实际机器人任务及模拟任务中展示了其有效性,从而找到一组非支配解空间。
PDF
4 years ago
Prev
Next