Sep, 2023

学习最优合同:如何利用小的行动空间

TL;DR研究主体 - 代理问题中的主体为了引导代理采取成本高且不可观察的行动以获得有利结果而承诺一种与结果相关的支付方案,考虑了与代理进行多轮合同承诺的问题的推广,设计了一种算法,在观察到每轮的结果后,能够以高概率学习到近似最优的合同,对于行动空间较小的情景,在最优合同学习方面取得了突破性进展,并在相关在线学习环境下用于最大化主体累积效用以提供近似为 O (T^4/5) 的遗憾上界,从而明显改善了之前已知的遗憾上界。