Oct, 2024

通过学习感知的策略梯度实现多智能体合作

TL;DR本文研究了在自利的独立学习体之间实现合作的挑战,并提出了一种首个无偏高阶无梯度的策略梯度算法,专注于学习感知的强化学习。通过利用高效的序列模型,我们的算法能够在包含其他智能体学习动态的长观测历史上调节行为,从而在标准社交困境中实现合作行为和高回报。