自适应强化学习规划：利用大规模语言模型进行复杂信息提取

Jun, 2024

自适应强化学习规划：利用大规模语言模型进行复杂信息提取

Adaptive Reinforcement Learning Planning: Harnessing Large Language Models for Complex Information Extraction

Zepeng Ding, Ruiyang Ke, Wenhao Huang, Guochao Jiang, Yanda Li...

TL;DR大规模语言模型在信息提取任务中存在问题，通过两阶段多步骤方法和强化学习框架提高其表现，将顺序提取视为马尔可夫决策过程，训练决策模型以提供最佳的实体提取顺序，有效改善大规模语言模型的信息提取能力。

Abstract

Existing research on large language models (LLMs) shows that they can solve information extraction tasks through multi-step planning. Howe

large language models information extraction multi-step planning markov decision process rl framework

发现论文，激发创造

大规模语言模型的强化学习问题解决

使用大型语言模型作为强化学习代理以解决对话式强化学习问题，通过提出的提示技术，演示了如何迭代引导语言模型学习和优化特定强化学习任务的策略，并通过两个具体案例研究展示了该方法的实用性。

Apr, 2024

基于大型语言模型增强强化学习的调研：概念，分类和方法

大规模语言模型在增强学习中具有广泛的预训练知识和高水平的通用能力，本文对现有文献进行了综述，概括了大规模语言模型增强学习与传统增强学习方法的特点，并提出了一个结构化的分类法来系统地分类大规模语言模型在增强学习中的功能和方法，并讨论了其潜在应用、前景机会和挑战。

Mar, 2024

DELTA：基于大型语言模型的分解型高效长期机器人任务规划

提出了一种名为 DELTA 的新型 LLM 驱动的任务规划方法，通过将环境拓扑图作为 LLM 中的环境表示，以快速生成精确的规划问题描述；同时利用 LLM 将长期任务目标分解为自回归的子目标序列，以供自动化任务规划器解决；该方法提供了更高效且完全自动化的任务规划流程，实现了比现有技术更高的规划成功率和显著缩短的规划时间。

Apr, 2024

利用双层可学习大语言模型规划增强长期推荐

利用大型语言模型的规划能力，提出一种可学习的长期推荐规划框架，结合强化学习和层次学习。实验证实该框架在学习长期推荐规划方面具有优势。

Feb, 2024

部分可观察机器人任务的大型语言模型交互规划

使用大型语言模型（LLMs）的互动规划技术，通过机器人收集环境中缺失的信息并推断底层问题的状态，从而指导机器人执行所需的动作。

Dec, 2023

利用经过优化的大型语言模型从复杂的科技文本中提取结构化信息

通过预先训练的语言模型 GPT-3，我们提出了一种简单的序列到序列方法来联合提取科学文本中的复杂层次信息的命名实体识别和关系抽取，并证明了这种方式能够准确提取复杂科学知识的有用记录。

Dec, 2022

大型部分可观察环境中的顺序计划引导 LLMs

通过结合状态空间搜索和基于自然语言模型的查询，我们提出了一种混合代理方法 neoplanner，以最大化状态值的上界来平衡探索和开发，并通过查询自然语言模型以生成行动计划，进一步提高了大规模状态空间和行动空间的顺序规划的性能。

Dec, 2023

大规模语言模型的高效顺序决策

本论文提出了一种新的方法，利用在线模型选择算法在序列决策中高效地整合 LLM 代理，统计上显著优于传统决策算法和普通 LLM 代理，计算上避免了 LLM 梯度更新的高昂代价，并且在整个决策过程中只需要少量 LLM 调用。

Jun, 2024

大型语言模型作为训练强化学习智能体的良好策略导师

通过使用大规模语言模型，我们提出了一种新的框架，通过从语言模型教师代理接收指导行为，训练一个小规模专用的学生代理。通过将语言模型的先验知识融入到本地学生模型中，该学生代理可以用较少的数据进行训练，并通过环境反馈进一步提升其能力。实验结果表明，我们的方法提高了样本效率，并实现了比基准方法更卓越的性能。

Nov, 2023

从词语到行动：揭示 LLM 驱动的自主系统的理论基础

从理论角度出发，研究大型语言模型在物理世界中解决决策问题的原因，通过层次化强化学习模型，证明预先训练的大型语言模型规划器通过上下文学习有效地进行贝叶斯聚合模仿学习，并引入探索策略避免线性遗憾。扩展该理论框架应用于环境的过渡模型推断和多智能体协调等场景。

May, 2024