Oct, 2024

LASeR:利用多臂赌博机学习自适应选择奖励模型

TL;DR本文解决了现有奖励模型在新任务中的通用性不足的问题,提出了一种名为LASeR的新方法,能够通过自适应选择最佳奖励模型来优化大型语言模型的训练。研究结果表明,LASeR在多个数据集上显著提高了模型性能,并展现出更高的训练效率,显示了其在多种应用场景中的潜在影响。