Mar, 2025

在模型不确定性下引导无遗憾代理的均值场博弈研究

TL;DR本研究解决了在大规模代理和模型不确定性条件下引导代理学习行为的问题,提出了一种新的引导奖励设计方法,通过优化探索算法引导代理在未知环境中学习并趋向预期行为。最重要的发现是,该方法在引导成本上仅产生次线性额外费用,展示了在复杂环境中有效引导代理的潜力。