Mar, 2023

学习激励信息获取:适当计分规则与委托代理模型相遇

TL;DR研究了由 Stackelberg 博弈建模的信息获取问题,设计了样本有效的算法来优化评分规则,并保证了代理的行为得到激励,且无关环境状态数的遗憾值上界为 T 的两到三次方根。