基于大型语言模型的高效强化学习搜索

May, 2024

基于大型语言模型的高效强化学习搜索

Efficient Reinforcement Learning via Large Language Model-based Search

Siddhant Bhambri, Amrita Bhattacharjee, Huan Liu, Subbarao Kambhampati

TL;DR通过将大型语言模型与 MEDIC 框架结合，我们的研究旨在改善强化学习的样本效率，特别针对稀疏奖励领域和随机转换等问题，以提高 PPO 和 A2C 强化学习算法的样本复杂度，并为进一步探索如何利用这些模型增强现有强化学习流程铺平道路。

Abstract

reinforcement learning (RL) suffers from sample inefficiency in sparse reward domains, and the problem is pronounced if there are stochastic transitions. To improve the sample efficiency, →

reinforcement learning sample efficiency reward shaping large language models medic framework

发现论文，激发创造

利用大型语言模型启发增强 Q-Learning

LLM-guided Q-learning combines the advantages of large language models and Q-learning without introducing performance bias, providing action-level guidance and converting hallucinations into exploration costs, resulting in improved sampling efficiency and suitability for complex control tasks.

May, 2024

大规模语言模型的强化学习问题解决

使用大型语言模型作为强化学习代理以解决对话式强化学习问题，通过提出的提示技术，演示了如何迭代引导语言模型学习和优化特定强化学习任务的策略，并通过两个具体案例研究展示了该方法的实用性。

Apr, 2024

利用大型语言模型指导强化学习的预训练

提出了一种名为 ELLM（LLM 探索）的方法，它利用来自文本语料库的背景知识来塑造探索，通过利用大规模语言模型预训练，无需人介入便能引导智能体朝向有人类意义的和可能有用的行为方向，通过在 Crafter 游戏环境和 Housekeep 机器人模拟器中的实验，证明了 ELLM 训练的代理在预训练期间具有更好的常识行为覆盖，并且在一系列下游任务中通常与或优于性能。

Feb, 2023

强化学习中基于人类反馈的免费密集奖励

从人类反馈中进行强化学习是使大型语言模型能够有效地遵循指令并产生有用辅助的关键进展，通过使用注意力权重重新分配奖励以高亮最重要的标记，它在稳定训练、加快学习速度和实现更好的局部最优解方面展现了实证优势。

Feb, 2024

强化学习中使用自然语言进行奖励塑形

使用自然语言指令进行奖励塑形，在复杂的 Atari 游戏中，比标准强化学习算法成功完成任务的次数平均提高了 60%，并且可以无缝集成到任何标准强化学习算法中。

Mar, 2019

DRLC：来自 LLM 批评者的强化学习与稠密奖励

通过引入批评语言模型的框架，利用密集奖励对强化学习中的稀疏奖励进行补偿，本研究在情感控制、语言模型去毒化和摘要生成等三个文本生成任务中验证了该方法的有效性，实验证明在训练过程中引入人工密集奖励相较于以整体奖励为基线的 PPO 算法能够稳定提升性能，并且在同一模型作为策略模型和批评模型的设定下，还能提高学习效率。

Jan, 2024

利用大型语言模型的反馈加速机器人操控的强化学习

通过利用大型语言模型的及时反馈，Lafite-RL（语言代理反馈互动式强化学习）框架使强化学习智能体能够有效地学习机器人任务，实验结果表明，Lafite-RL 智能体在自然语言的简单提示设计下，通过大型语言模型的引导在学习效率和成功率方面优于基准模型，凸显了大型语言模型所提供的奖励的功效。

Nov, 2023

自动驾驶场景下的上下文学习

利用大型语言模型优化强化学习的奖励功能，使自动驾驶代理在行为上更加灵活、精准和类人化，探究奖励设计在塑造自动驾驶车辆行为中的重要影响，为更先进、类人化的自动驾驶系统的发展提供了有希望的方向。

May, 2024

LLM 如何引导强化学习？一种基于价值的方法

本研究探讨了如何利用大型语言模型的策略先验知识来提高强化学习算法的样本利用效率，并通过在三个交互环境中的实验验证了该方法在成功率和样本利用效率方面均超过了之前的强化学习和大型语言模型方法。

Feb, 2024

通过强化学习实现算法代理和 LLM 之间的高效交互

本文主要介绍了使用基于强化学习的调解模型，来解决使用大型语言模型进行高级指令的效率和成本问题，并在四种实验环境下验证了该方法的准确性和效率。

Jun, 2023