基于 LLMs 增强的上下文强化学习

Nov, 2023

LLMs-augmented Contextual Bandit

Ali Baheri, Cecilia O. Alm

TL;DR通过将大型语言模型与情境赌博算法框架相融合，加强了对于情境的表示，提供更密集且更丰富的视角，初步结果表明这种方法的潜力，与传统赌博算法相比，在累积奖励上有显著改善，且减少了后悔。这种整合不仅展示了大型语言模型在强化学习中的能力，还为全新的情境感知决策系统开启了新的篇章。

Abstract

contextual bandits have emerged as a cornerstone in reinforcement learning, enabling systems to make decisions with partial feedback. However, as contexts grow in complexity, traditional →

contextual bandits large language models reinforcement learning bandit algorithms contextually-aware decision systems

发现论文，激发创造

使用 LLM 生成的先验知识启动 Bandits

将大型语言模型与上下文多臂赌博机框架相结合的益处展示了大量的证据。提出了一种初始化算法，通过提示语言模型生成预训练数据集，以减少上线学习的遗憾并降低培训该模型的数据收集成本。通过两组实验进行了实证验证，其中一组利用大型语言模型作为预测模拟器，另一组利用共同调查实验的数据进行真实世界实验。

Jun, 2024

大型语言模型的偏差性加强学习器

大型语言模型通过上下文学习来学习包括简单 bandit 任务中的奖励最大化选择，本研究发现这些模型在编码奖励结果时存在相对价值偏差。

May, 2024

多任务学习用于情境赌博机

本文提出了一个基于上限置信区间的多任务学习算法框架，用于处理具有高任务相似性的上下文型臂带问题，并揭示了此算法在数据中高任务相似性的优势。

May, 2017

大型语言模型能否进行上下文探索？

现代大型语言模型（LLMs）在强化学习和决策中能否进行探索是我们的研究重点。我们在不进行训练干预的情况下测试现有 LLMs 的本地性能。我们将 LLMs 部署为简单的多臂赌博机环境中的代理，使用完全基于环境描述和交互历史的 LLM 提示。通过实验，我们发现模型在没有干预的情况下无法稳定地进行探索。尽管某些配置表现良好，但得出的结论是在复杂环境中，可能需要非平凡的算法干预才能使 LLMs 代理能够做出理想的决策。

Mar, 2024

关于大型语言模型的决策重要性中的不确定性

我们研究了在自然语言作为输入的决策问题中不确定性的作用，发现在大型语言模型中忽视了不确定性对于带有大型语言模型的赌博任务具有基础性的作用。

Apr, 2024

平衡线性情境臂

本篇论文针对强异质性或复杂结果模型容易引起难以估计问题的上下文匹配算法，通过整合因果推断文献中的平衡方法来降低其偏差估计的问题，并对具有平衡的线性上下文匹配算法进行损失分析，从而展示了其在多个监督学习数据集上的实用优势以及在初级训练数据中模拟模型错误和偏见的工作中所展现出的优越性。

Dec, 2018

基于行动中心的上下文分组赌博机算法

为延伸时间不变线性模型假设限制，我们提出了一种上下文 Bandits 的线性模型扩展，该模型具有基线奖励和处理效应两个部分，并已在移动健康研究中做了实验证明其有效性。

Nov, 2017

客服机器人中的上下文赌博学习经验

本文讨论了利用上下文决策来改善微软虚拟客服所取得的成就，其中集中讨论了强化学习在自然语言处理和信息检索等领域的应用，同时也提供了解决这些挑战的实用方法。

May, 2019

客户支持机器人中的上下文强化学习应用

本文讨论了使用上下文赌博机（CB）的微软虚拟代理的实现情况，包括基于神经 - 线性赌博机（NLB）的意图消岐和基于一组多臂赌博机（MAB）的上下文推荐。我们的解决方案已经落地生产并通过 A/B 测试证实了业务指标的改进，包括问题解决率相对增加了 12％以上，转移到人工操作员的相对减少了 4％以上。

Dec, 2021

上下文赌博大比拼

本文是对背景上下文算法的一个全面的研究和综述，重点关注依靠监督学习的优化原则的实用方法，并利用大量的监督学习数据集进行了实证评估。研究发现，最近使用不确定性乐观主义的方法在整体上效果最好，其次是通过上下文多样性暗示进行探索的简单贪心基线。

Feb, 2018