BriefGPT.xyz
Ask
alpha
关键词
data-driven incentive policy
搜索结果 - 1
估计和激励带有隐藏回报的不完美知识代理
研究探讨了自私学习代理和学习主体之间的重复逆向选择博弈,代理通过解决多臂赌博机问题来最大化其预期奖励和激励,主体则在保持一致性估计代理的未知奖励与通过提供自适应激励最大化自身效用之间进行权衡。
PDF
a year ago
Prev
Next