BriefGPT.xyz
Ask
alpha
关键词
incentive policy
搜索结果 - 1
奖励驱动的委托代理赌博游戏中的学习
这项研究考虑了一个反复的委托人 - 代理人强盗游戏,委托人仅能通过代理人与环境进行交互。委托人和代理人的目标不一致,选择行动的权限仅留给代理人。然而,委托人可以通过提供激励来影响代理人的决策,这些激励为代理人的回报增加。委托人旨在迭代学习一
→
PDF
4 months ago
Prev
Next