Jun, 2024

使用 LLM 生成的先验知识启动 Bandits

TL;DR将大型语言模型与上下文多臂赌博机框架相结合的益处展示了大量的证据。提出了一种初始化算法,通过提示语言模型生成预训练数据集,以减少上线学习的遗憾并降低培训该模型的数据收集成本。通过两组实验进行了实证验证,其中一组利用大型语言模型作为预测模拟器,另一组利用共同调查实验的数据进行真实世界实验。