Nov, 2023

基于 LLMs 增强的上下文强化学习

TL;DR通过将大型语言模型与情境赌博算法框架相融合,加强了对于情境的表示,提供更密集且更丰富的视角,初步结果表明这种方法的潜力,与传统赌博算法相比,在累积奖励上有显著改善,且减少了后悔。这种整合不仅展示了大型语言模型在强化学习中的能力,还为全新的情境感知决策系统开启了新的篇章。