Feb, 2024

对手塑形的样本复杂度分析

TL;DR对抗塑形方法 (opponent shaping) 在元博弈 (meta-game) 框架下,通过引导其他智能体的学习过程,在众多情境中提高了个体和团队的表现。作者提出 R-FOS 方法,将连续状态和动作空间的元博弈转化为表格形式,推导出一个与内部状态和动作空间的基数以及智能体数量指数相关的样本复杂度上界,保证 R-FOS 智能体所学习的最终策略与最优策略接近,除了一个常数因子外。此外,作者还探讨了 R-FOS 在状态-动作空间规模变化时的样本复杂度,并通过 Matching Pennies 环境的实证结果支持了理论上的扩展性。