WWWMar, 2024
选择哪个 LLM?具有收敛意识的增长式时间赌博的在线模型选择
Which LLM to Play? Convergence-Aware Online Model Selection with Time-Increasing Bandits
Yu Xia, Fang Kong, Tong Yu, Liya Guo, Ryan A. Rossi...
TL;DR提出了一种时间递增的强化学习算法 TI-UCB,用于在模型选择中预测性能的增长趋势并平衡探索与开发的权衡,通过对分类模型选择和在线选择 LLMs 进行验证,实验证明了该方法提高了模型选择的效率和经济性。