选择哪个 LLM？具有收敛意识的增长式时间赌博的在线模型选择

WWWMar, 2024

选择哪个 LLM？具有收敛意识的增长式时间赌博的在线模型选择

Which LLM to Play? Convergence-Aware Online Model Selection with Time-Increasing Bandits

Yu Xia, Fang Kong, Tong Yu, Liya Guo, Ryan A. Rossi...

TL;DR提出了一种时间递增的强化学习算法 TI-UCB，用于在模型选择中预测性能的增长趋势并平衡探索与开发的权衡，通过对分类模型选择和在线选择 LLMs 进行验证，实验证明了该方法提高了模型选择的效率和经济性。

Abstract

web-based applications such as chatbots, search engines and news recommendations continue to grow in scale and complexity with the recent surge in the adoption of llms. Online →

web-based applications llms model selection bandit algorithm converging pattern

发现论文，激发创造

在线匹配：一种用于大规模推荐的实时试错系统

通过在线学习的方法，本研究提出了一种用于大规模推荐系统的可扩展闭环赌博系统，以提高新内容发现和物品探索的能力。

Jul, 2023

低成本在线决策：一种组合多臂赌博机方法

本文基于组合多臂赌博机，考虑了测试成本，提供了一种新的成本高效的在线决策框架，并通过后验抽样或 BayesUCB 进行探索。我们对该框架进行了严格的理论分析，并提供了多个实验结果，证明了它在实际问题中的适用性。

Aug, 2023

算法选择作为带无限损失的赌博机问题

本文提出一种将算法选择表示为部分信息的赌博问题的简单框架，并将现有的求解器适应于该游戏，证明了其期望遗憾的边界，该算法选择技术的也适用于此。

Jul, 2008

使用 LLM 生成的先验知识启动 Bandits

将大型语言模型与上下文多臂赌博机框架相结合的益处展示了大量的证据。提出了一种初始化算法，通过提示语言模型生成预训练数据集，以减少上线学习的遗憾并降低培训该模型的数据收集成本。通过两组实验进行了实证验证，其中一组利用大型语言模型作为预测模拟器，另一组利用共同调查实验的数据进行真实世界实验。

Jun, 2024

线性赌博机中的即时模型选择

在线学习在模型选择时可以通过对线性赌博机进行全信息反馈来改进性能，从而在 M 个模型中具有对数级的依赖性，而不需要先验知识或纯探索阶段。

Jul, 2023

具有多功能奖励模型的成本效益的在线多 LLM 选择

利用 “C2MAB-V” 实现对多个大型语言模型的选择和使用，实现了性能和成本效益的平衡。

May, 2024

赌博机中渐进式保守探索的算法改进

本文研究在线学习算法如何在现实应用中优化基线策略并介绍了一种新的基于 Conservative Constrained LinUCB 算法的解决方案，并在多个合成和真实世界的问题中超越了现有的保守乐队算法。

Feb, 2020

上下文臂选择模型

介绍了在上下文密集应用中的模型选择问题及其解决方案，该方案适用于线性上下文密集应用，并在先验知识下达到了较低的后验概率。

Jun, 2019

基于 LLMs 增强的上下文强化学习

通过将大型语言模型与情境赌博算法框架相融合，加强了对于情境的表示，提供更密集且更丰富的视角，初步结果表明这种方法的潜力，与传统赌博算法相比，在累积奖励上有显著改善，且减少了后悔。这种整合不仅展示了大型语言模型在强化学习中的能力，还为全新的情境感知决策系统开启了新的篇章。

Nov, 2023

对话式上下文强化学习算法及其应用

将上下文策略（Contextual bandit）算法推广到对话情境的策略推荐 (Conversational contextual bandit)，通过针对关键术语（key-terms）的交流反馈来加速策略学习，设计 Conversational UCB 算法来处理此类情境，理论分析 ConUCB 可以达到比传统策略策略 LinUCB 更小的遗憾上界，实验结果表明了该算法的有效性。

Jun, 2019