本研究利用自省式提示 (Introspective Tips) 促进了大型语言模型 (Large Language Models) 的自我优化,从学习过程中的经验、集成专家演示和跨越多种游戏等三种方面提高决策性能,却不调整 LMM 参数,结论在 TextWorld 超过 100 个游戏中都表现出优异的结果。
May, 2023
使用大型语言模型作为强化学习代理以解决对话式强化学习问题,通过提出的提示技术,演示了如何迭代引导语言模型学习和优化特定强化学习任务的策略,并通过两个具体案例研究展示了该方法的实用性。
Apr, 2024
使用语言模型(LM)进行预训练,可以帮助在一般的顺序决策问题中实现学习和泛化,并且在大量不同的环境和监督模态下实现组合泛化。
Feb, 2022
通过使用大规模语言模型,我们提出了一种新的框架,通过从语言模型教师代理接收指导行为,训练一个小规模专用的学生代理。通过将语言模型的先验知识融入到本地学生模型中,该学生代理可以用较少的数据进行训练,并通过环境反馈进一步提升其能力。实验结果表明,我们的方法提高了样本效率,并实现了比基准方法更卓越的性能。
Nov, 2023
本文主要介绍了使用基于强化学习的调解模型,来解决使用大型语言模型进行高级指令的效率和成本问题,并在四种实验环境下验证了该方法的准确性和效率。
Jun, 2023
大型语言模型(LLM)在商业、工程和医学等领域日益广泛应用。本文提出了 DeLLMa(不确定环境下的决策型大型语言模型助手)框架,通过多步骤的脚手架过程,绘制决策理论和效用理论的原则,提供一种优化且可由人类审查的决策过程,从而显著提高 LLM 的决策性能,使准确率提高了 40%。
Feb, 2024
利用大型语言模型 (LLMs) 管理会话和平衡个体偏好,以促进集体决策,并应用于公司会议安排。
本文探讨了在大规模多目标优化领域中,生成 AI(GenAI)和进化算法(EAs)的无缝集成。通过着眼于大型语言模型(LLMs)的变革性作用,我们的研究调查了 LLM 辅助推理在自动化和增强决策过程中的潜力。具体而言,我们突出了 LLM 在揭示进化优化解决方案中的关键决策变量和表述上下文权衡方面的有效性。我们的方法旨在解决在大规模推断复杂多目标优化解决方案中固有的挑战,强调 LLM 的适应性,使其能够提供细致入微的解释,并使其语言与不同利益相关者的专业水平和领域偏好保持一致。经验证明,LLM 辅助推理在实际决策场景中具有实际可应用性和影响力。
May, 2024
大语言模型(LLMs)在单个查询中难以遵循一系列指令,从而可能忽略或错误解释其中的一部分,这影响了它们在需要多个中间步骤的复杂问题(例如多语言(翻译然后回答)和多模态(字幕然后回答)任务)中的性能。我们通过使用开源 LLMs(如 LLaMA-2 70B 和 Mixtral-8x7B)进行实证验证。针对当今数据中顺序指令的稀缺性,我们提出了顺序指令调整,这是一种简单而有效的策略,用于自动增加指令调整数据并赋予 LLMs 执行多个顺序指令的能力。通过探索 Alpaca 等现有数据集中的交替指令和各种中间任务,我们发现,顺序指令调整模型在涉及推理、多语言和多模态能力的下游任务中始终优于传统的指令调整基线。为了进一步阐明我们的技术,我们分析了敌对中间文本、未见任务、提示语言的表达、任务数量和提示长度对顺序指令调整的影响。我们希望这种方法能为复杂任务的指令调整开辟新的研究途径。
Mar, 2024
大规模语言模型在信息提取任务中存在问题,通过两阶段多步骤方法和强化学习框架提高其表现,将顺序提取视为马尔可夫决策过程,训练决策模型以提供最佳的实体提取顺序,有效改善大规模语言模型的信息提取能力。
Jun, 2024