Feb, 2024

利用大型语言模型自动化并加快使用奖励机制的强化学习

TL;DR我们提出了 LARL-RM 算法,利用自动机将高层知识编码到强化学习中,以加速强化学习过程,同时使用大型语言模型通过提示工程来获取高层领域特定知识,避免了需要专家编码自动机的问题,且能够在无需专家指导和监督下进行全闭环强化学习,我们还展示了算法收敛到最优策略的理论保证,并通过两个案例研究实现了 30% 的加速收敛。