Jun, 2024

大规模语言模型的高效顺序决策

TL;DR本论文提出了一种新的方法,利用在线模型选择算法在序列决策中高效地整合 LLM 代理,统计上显著优于传统决策算法和普通 LLM 代理,计算上避免了 LLM 梯度更新的高昂代价,并且在整个决策过程中只需要少量 LLM 调用。