Apr, 2023

多智能体强化学习中条件协调行为的可解释性

TL;DR提出了一种无模型强化学习架构,名为带有条件关注的分布式注意力演员架构(DA6-X),用于提供条件协调行为更好的可解释性。该方法通过重用显着性向量,展现除全局智能体位置等环境的条件状态。具有DA6-X灵活性的智能体政策在决策过程中考虑条件状态的附加信息,从而表现出更高的性能。通过可视化来自DA6-X的注意力权重,证明智能体通过正确识别各种条件状态成功地学习了情境相关的协调行为,从而提高了智能体的可解释性和性能优点。