BriefGPT.xyz
Ask
alpha
关键词
proxy reward function
搜索结果 - 2
通过占用度量规范化防止奖励攻击
奖励破解是指代理根据「代理」奖励函数(可以是手动指定或学习得到的函数)表现出色,但在未知真实奖励方面表现差。我们提出根据状态占据度测量建立正则化模型,以代替行动分布来避免奖励破解,并进行理论和实证研究验证。
PDF
4 months ago
ICLR
使用语言模型进行奖励设计
本文探讨以自然语言接口为代理奖励函数来简化奖励设计,在强化学习框架下利用大型语言模型对用户目标进行培训,实现智能体与用户目标的对齐,并在 Ultimatum 游戏、矩阵游戏和 DealOrNoDeal 谈判任务中优于通过监督式学习学习的奖励
→
PDF
a year ago
Prev
Next