Apr, 2024

最佳响应塑造

TL;DR在部分竞争环境中,我们研究了多智能体深度强化学习的挑战,传统方法难以促进基于互惠合作的行为。为解决现有技术中的局限性,我们提出了一种新的方法 —— 最佳回应塑造(BRS),通过对手的求解最佳回应进行差分学习。利用基于问题回答的方法提取智能体在特定环境状态下的行为表示,引入了一种能够对复杂博弈中的智能体策略进行状态感知可微的条件机制。通过实验证明了我们的方法在与蒙特卡洛树搜索对手(在 Coin Game 中近似最佳回应)对抗时具有更好的性能,从而拓展了部分竞争环境中多智能体强化学习的适用性,并为实现总和博弈中社会福利的改善提供了新的路径。