Nov, 2023

Where2Start: 利用初始状态进行鲁棒性和样本高效的强化学习

TL;DR我们提出了 Where2Start 算法,通过选择初始状态,在该状态附近产生更多的不稳定性,从而改善强化学习中的样本效率。实验证明,Where2Start 算法可以提高样本效率达到 8 倍,并且可以与大多数最先进的算法结合,显著提高其稳健性和样本效率。