Aug, 2023

估计和激励带有隐藏回报的不完美知识代理

TL;DR研究探讨了自私学习代理和学习主体之间的重复逆向选择博弈,代理通过解决多臂赌博机问题来最大化其预期奖励和激励,主体则在保持一致性估计代理的未知奖励与通过提供自适应激励最大化自身效用之间进行权衡。