WWWMar, 2024

选择哪个 LLM?具有收敛意识的增长式时间赌博的在线模型选择

TL;DR提出了一种时间递增的强化学习算法 TI-UCB,用于在模型选择中预测性能的增长趋势并平衡探索与开发的权衡,通过对分类模型选择和在线选择 LLMs 进行验证,实验证明了该方法提高了模型选择的效率和经济性。