基于 LLMs 增强的上下文强化学习
将大型语言模型与上下文多臂赌博机框架相结合的益处展示了大量的证据。提出了一种初始化算法,通过提示语言模型生成预训练数据集,以减少上线学习的遗憾并降低培训该模型的数据收集成本。通过两组实验进行了实证验证,其中一组利用大型语言模型作为预测模拟器,另一组利用共同调查实验的数据进行真实世界实验。
Jun, 2024
现代大型语言模型(LLMs)在强化学习和决策中能否进行探索是我们的研究重点。我们在不进行训练干预的情况下测试现有 LLMs 的本地性能。我们将 LLMs 部署为简单的多臂赌博机环境中的代理,使用完全基于环境描述和交互历史的 LLM 提示。通过实验,我们发现模型在没有干预的情况下无法稳定地进行探索。尽管某些配置表现良好,但得出的结论是在复杂环境中,可能需要非平凡的算法干预才能使 LLMs 代理能够做出理想的决策。
Mar, 2024
本篇论文针对强异质性或复杂结果模型容易引起难以估计问题的上下文匹配算法,通过整合因果推断文献中的平衡方法来降低其偏差估计的问题,并对具有平衡的线性上下文匹配算法进行损失分析,从而展示了其在多个监督学习数据集上的实用优势以及在初级训练数据中模拟模型错误和偏见的工作中所展现出的优越性。
Dec, 2018
为延伸时间不变线性模型假设限制,我们提出了一种上下文 Bandits 的线性模型扩展,该模型具有基线奖励和处理效应两个部分,并已在移动健康研究中做了实验证明其有效性。
Nov, 2017
本文讨论了利用上下文决策来改善微软虚拟客服所取得的成就,其中集中讨论了强化学习在自然语言处理和信息检索等领域的应用,同时也提供了解决这些挑战的实用方法。
May, 2019
本文讨论了使用上下文赌博机(CB)的微软虚拟代理的实现情况,包括基于神经 - 线性赌博机(NLB)的意图消岐和基于一组多臂赌博机(MAB)的上下文推荐。我们的解决方案已经落地生产并通过 A/B 测试证实了业务指标的改进,包括问题解决率相对增加了 12%以上,转移到人工操作员的相对减少了 4%以上。
Dec, 2021
本文是对背景上下文算法的一个全面的研究和综述,重点关注依靠监督学习的优化原则的实用方法,并利用大量的监督学习数据集进行了实证评估。研究发现,最近使用不确定性乐观主义的方法在整体上效果最好,其次是通过上下文多样性暗示进行探索的简单贪心基线。
Feb, 2018