Jun, 2024

离线强化学习中有限数据处理的领域知识整合

TL;DR通过领域知识约束和自适应改进初步的领域知识,该论文提出了一种能够显著提高有限数据下性能的新颖离线强化学习(RL)算法,并通过对标准离散环境数据集的实证评估,显示相比于现有离线 RL 算法,性能至少提升了 27%。