大规模语言模型的高效顺序决策

Jun, 2024

Efficient Sequential Decision Making with Large Language Models

Dingyang Chen, Qi Zhang, Yinglun Zhu

TL;DR本论文提出了一种新的方法，利用在线模型选择算法在序列决策中高效地整合 LLM 代理，统计上显著优于传统决策算法和普通 LLM 代理，计算上避免了 LLM 梯度更新的高昂代价，并且在整个决策过程中只需要少量 LLM 调用。

Abstract

This paper focuses on extending the success of large language models (LLMs) to sequential decision making. Existing efforts either (i) re-train or finetune LLMs for decision making, or (ii) design prompts for pre

large language models sequential decision making online model selection algorithms gradient updates llm calls

发现论文，激发创造

自省提示：用于上下文决策的大型语言模型

本研究利用自省式提示 (Introspective Tips) 促进了大型语言模型 (Large Language Models) 的自我优化，从学习过程中的经验、集成专家演示和跨越多种游戏等三种方面提高决策性能，却不调整 LMM 参数，结论在 TextWorld 超过 100 个游戏中都表现出优异的结果。

May, 2023

大规模语言模型的强化学习问题解决

使用大型语言模型作为强化学习代理以解决对话式强化学习问题，通过提出的提示技术，演示了如何迭代引导语言模型学习和优化特定强化学习任务的策略，并通过两个具体案例研究展示了该方法的实用性。

Apr, 2024

用于交互式决策的预训练语言模型

使用语言模型（LM）进行预训练，可以帮助在一般的顺序决策问题中实现学习和泛化，并且在大量不同的环境和监督模态下实现组合泛化。

Feb, 2022

大型语言模型作为训练强化学习智能体的良好策略导师

通过使用大规模语言模型，我们提出了一种新的框架，通过从语言模型教师代理接收指导行为，训练一个小规模专用的学生代理。通过将语言模型的先验知识融入到本地学生模型中，该学生代理可以用较少的数据进行训练，并通过环境反馈进一步提升其能力。实验结果表明，我们的方法提高了样本效率，并实现了比基准方法更卓越的性能。

Nov, 2023

通过强化学习实现算法代理和 LLM 之间的高效交互

本文主要介绍了使用基于强化学习的调解模型，来解决使用大型语言模型进行高级指令的效率和成本问题，并在四种实验环境下验证了该方法的准确性和效率。

Jun, 2023

DeLLMa：一种基于大型语言模型进行不确定性决策的框架

大型语言模型（LLM）在商业、工程和医学等领域日益广泛应用。本文提出了 DeLLMa（不确定环境下的决策型大型语言模型助手）框架，通过多步骤的脚手架过程，绘制决策理论和效用理论的原则，提供一种优化且可由人类审查的决策过程，从而显著提高 LLM 的决策性能，使准确率提高了 40%。

Feb, 2024

利用大型语言模型进行集体决策

利用大型语言模型 (LLMs) 管理会话和平衡个体偏好，以促进集体决策，并应用于公司会议安排。

Nov, 2023

在优化中通过 LLM 辅助推理增强决策能力：神经网络视角

本文探讨了在大规模多目标优化领域中，生成 AI（GenAI）和进化算法（EAs）的无缝集成。通过着眼于大型语言模型（LLMs）的变革性作用，我们的研究调查了 LLM 辅助推理在自动化和增强决策过程中的潜力。具体而言，我们突出了 LLM 在揭示进化优化解决方案中的关键决策变量和表述上下文权衡方面的有效性。我们的方法旨在解决在大规模推断复杂多目标优化解决方案中固有的挑战，强调 LLM 的适应性，使其能够提供细致入微的解释，并使其语言与不同利益相关者的专业水平和领域偏好保持一致。经验证明，LLM 辅助推理在实际决策场景中具有实际可应用性和影响力。

May, 2024

使用顺序指令对大型语言模型进行微调

大语言模型（LLMs）在单个查询中难以遵循一系列指令，从而可能忽略或错误解释其中的一部分，这影响了它们在需要多个中间步骤的复杂问题（例如多语言（翻译然后回答）和多模态（字幕然后回答）任务）中的性能。我们通过使用开源 LLMs（如 LLaMA-2 70B 和 Mixtral-8x7B）进行实证验证。针对当今数据中顺序指令的稀缺性，我们提出了顺序指令调整，这是一种简单而有效的策略，用于自动增加指令调整数据并赋予 LLMs 执行多个顺序指令的能力。通过探索 Alpaca 等现有数据集中的交替指令和各种中间任务，我们发现，顺序指令调整模型在涉及推理、多语言和多模态能力的下游任务中始终优于传统的指令调整基线。为了进一步阐明我们的技术，我们分析了敌对中间文本、未见任务、提示语言的表达、任务数量和提示长度对顺序指令调整的影响。我们希望这种方法能为复杂任务的指令调整开辟新的研究途径。

Mar, 2024

自适应强化学习规划：利用大规模语言模型进行复杂信息提取

大规模语言模型在信息提取任务中存在问题，通过两阶段多步骤方法和强化学习框架提高其表现，将顺序提取视为马尔可夫决策过程，训练决策模型以提供最佳的实体提取顺序，有效改善大规模语言模型的信息提取能力。

Jun, 2024