使用 LLM 生成的先验知识启动 Bandits

Jun, 2024

使用 LLM 生成的先验知识启动 Bandits

Jump Starting Bandits with LLM-Generated Prior Knowledge

Parand A. Alamdari, Yanshuai Cao, Kevin H. Wilson

TL;DR将大型语言模型与上下文多臂赌博机框架相结合的益处展示了大量的证据。提出了一种初始化算法，通过提示语言模型生成预训练数据集，以减少上线学习的遗憾并降低培训该模型的数据收集成本。通过两组实验进行了实证验证，其中一组利用大型语言模型作为预测模拟器，另一组利用共同调查实验的数据进行真实世界实验。

Abstract

We present substantial evidence demonstrating the benefits of integrating large language models (LLMs) with a contextual multi-armed bandit framework. Contextual bandits have been widely used in →

large language models contextual multi-armed bandit recommendation systems online learning regret conjoint survey experiment

发现论文，激发创造

基于 LLMs 增强的上下文强化学习

通过将大型语言模型与情境赌博算法框架相融合，加强了对于情境的表示，提供更密集且更丰富的视角，初步结果表明这种方法的潜力，与传统赌博算法相比，在累积奖励上有显著改善，且减少了后悔。这种整合不仅展示了大型语言模型在强化学习中的能力，还为全新的情境感知决策系统开启了新的篇章。

Nov, 2023

潜在语境决策与其在新用户个性化推荐中的应用

本研究提出了潜在上下文强化学习算法来解决个性化推荐中的冷启动问题，能够更快地了解新用户的兴趣并实现更好的后悔上限。

Apr, 2016

多任务学习用于情境赌博机

本文提出了一个基于上限置信区间的多任务学习算法框架，用于处理具有高任务相似性的上下文型臂带问题，并揭示了此算法在数据中高任务相似性的优势。

May, 2017

超越数值奖励：带有 LLM 代理的上下文对决

在 Dueling Bandits 情境中，本文研究了 Large Language Models (LLMs) 作为决策者的表现，并引入了一个增强算法 IF-Enhanced LLM，该算法结合了 LLMs 的上下文决策能力和经典 DB 算法的理论保证，以提高 LLMs 在做决策任务时的可信度和性能鲁棒性。

Jul, 2024

大型语言模型的偏差性加强学习器

大型语言模型通过上下文学习来学习包括简单 bandit 任务中的奖励最大化选择，本研究发现这些模型在编码奖励结果时存在相对价值偏差。

May, 2024

用于语言模型预训练在线优化的多臂老虎机：动态掩码的使用案例

通过提出基于多臂老虎机算法的在线优化框架，对预训练超参数进行顺序选择以优化语言模型效果，并通过模型评价展示该算法有效性。

Mar, 2022

在线个性化白盒 LLMs 生成与神经贝叶斯

本研究提出一种创新的在线方法，利用神经决策算法来动态优化基于用户反馈的软指令嵌入，提升白盒 LLMs 的开放式文本生成个性化。通过在各种任务上的严格实验证明，与基线策略相比，尤其是 NeuralTS，在个性化新闻标题生成方面取得了显著的性能改进，最佳 ROUGE 分数提高了 62.9%，在 LLM-agent 评估方面提高了 2.76%。

Apr, 2024

基于知识增强的大型语言模型个性化上下文查询建议

通过与用户与搜索引擎的交互历史相关的上下文，我们提出了一种新颖且通用的方法，用于个性化输出，这对于理解用户当前的搜索背景以及他们历史上知道和关心的内容是必要的。我们验证了我们的方法在上下文查询建议的任务上优于几个其他 LLM 基准方法，生成了在上下文中更相关、个性化和有用的查询建议。

Nov, 2023

大型语言模型的假设生成

大型语言模型利用数据分析生成假设，通过多臂赌博机设计奖励函数提高预测性能，并发现验证人类理论的新见解。

Apr, 2024

大型语言模型能否进行上下文探索？

现代大型语言模型（LLMs）在强化学习和决策中能否进行探索是我们的研究重点。我们在不进行训练干预的情况下测试现有 LLMs 的本地性能。我们将 LLMs 部署为简单的多臂赌博机环境中的代理，使用完全基于环境描述和交互历史的 LLM 提示。通过实验，我们发现模型在没有干预的情况下无法稳定地进行探索。尽管某些配置表现良好，但得出的结论是在复杂环境中，可能需要非平凡的算法干预才能使 LLMs 代理能够做出理想的决策。

Mar, 2024