Apr, 2024

行为监督调节的离线强化学习

TL;DRTD3-BST 是一种应用于脱机强化学习算法的不确定性模型,通过指导策略在数据集支持中选择动作,从而比先前的方法更有效地从离线数据集中学习策略,并在具有挑战性的基准测试中取得最佳性能,无需进行特定数据集的调整。