Feb, 2023

结构化动作空间的多样化策略优化

TL;DR本文旨在提出一种名为 DPO 的简单而有效的强化学习方法,用于在具有结构动作空间的 RL 任务中寻求多样性的策略。在实验中,DPO 在 ATSC 和 Battle 基准测试中都能够有效地发现多样的策略,在挑战性场景中显著优于现有的最先进方法。