Feb, 2024

决策理论引导下的深度强化学习快速学习

TL;DR通过 Decision Theory-guided Deep Reinforcement Learning(DT-guided DRL)的新方法,解决了 DRL 中的冷启动问题,提高了代理在复杂环境中的初始性能和稳健性,使学习过程更加高效可靠。通过解决两个主要问题的情景:杆车和迷宫导航挑战,实验结果表明 Decision Theory 的整合不仅为 DRL 代理提供有效的初始指导,而且在特征较大和复杂的环境中促进了更加结构化和明智的探索策略。实验结果显示,与常规的 DRL 相比,DT-guided DRL 能够提供更高的奖励。尤其是在训练的初始阶段,DT-guided DRL 的累积奖励增加了 184%。此外,即使在达到收敛后,它的性能仍然优于标准的 DRL,在大型迷宫问题中获得了多达 53% 的额外奖励。DT-guided DRL 在缓解 DRL 的基本挑战方面代表了一种进步,通过利用人类(设计者)知识所得到的函数来为进一步研究打下了基础。