Feb, 2024

教导一个学习代理

TL;DR在非学习模型中,如果代理使用上下文无懊悔学习算法,那么主体可以确保利用率接近于经典的带承诺非学习模型中主体的最优利用率;如果代理使用上下文无交换懊悔学习算法,那么主体无法获得比带承诺非学习模型中最优利用率更高的利用率;使用基于均值的学习算法,主体可以比非学习模型获得显著更好的结果。这些结论对于任何具有完全信息的广义委托代理问题都成立,包括斯塔克尔伯格博弈和合同设计。