BriefGPT.xyz
Ask
alpha
关键词
risk-averse behavior
搜索结果 - 1
NIPS
反向奖励设计
设计奖励函数的困难性和可能带来的负面影响,本文介绍一种基于上下文推断真实目标的方法,以及应用该方法规避不当奖励导致的风险。实证研究表明,本方法有效减轻了误设奖励函数的负面影响,并减少了奖励欺骗的可能。
PDF
7 years ago
Prev
Next