BriefGPT.xyz
Ask
alpha
关键词
regret-bound
搜索结果 - 1
学习激励信息获取:适当计分规则与委托代理模型相遇
研究了由 Stackelberg 博弈建模的信息获取问题,设计了样本有效的算法来优化评分规则,并保证了代理的行为得到激励,且无关环境状态数的遗憾值上界为 T 的两到三次方根。
PDF
a year ago
Prev
Next