May, 2022

DOMiNO: 多样性优化,保持接近最优的发现策略

TL;DR该论文提出了DOMiNO方法用于强化学习中多样性和优化的平衡,通过约束马尔可夫决策过程找到不同的策略,能够发现具有意义的多种行为并且对干扰有很强的鲁棒性。