RL/LLM 税务分类树：回顾强化学习与大型语言模型之间的协同效应

Feb, 2024

RL/LLM 税务分类树：回顾强化学习与大型语言模型之间的协同效应

The RL/LLM Taxonomy Tree: Reviewing Synergies Between Reinforcement Learning and Large Language Models

Moschoula Pternea, Prerna Singh, Abir Chakraborty, Yagna Oruganti, Mirco Milletari...

TL;DR本文探讨将强化学习和大型语言模型两大领域结合的研究，提出了一个分类系统并分析了其协同效应和潜在问题。

Abstract

In this work, we review research studies that combine reinforcement learning (RL) and large language models (LLMs), two areas that owe their momentum to the development of deep neural networks. We propose a novel

reinforcement learning large language models taxonomy performance improvement synergy

发现论文，激发创造

基于大型语言模型增强强化学习的调研：概念，分类和方法

大规模语言模型在增强学习中具有广泛的预训练知识和高水平的通用能力，本文对现有文献进行了综述，概括了大规模语言模型增强学习与传统增强学习方法的特点，并提出了一个结构化的分类法来系统地分类大规模语言模型在增强学习中的功能和方法，并讨论了其潜在应用、前景机会和挑战。

Mar, 2024

大型语言和强化学习模型相互增强的双向反馈机制：以案例研究为例

大型语言模型和强化学习模型合作的教师 - 学生学习框架，通过递归互助的方式，实现了抽象信息的供给和实时反馈的互利循环，从而推动大型语言模型和强化学习模型在协同多智能体环境中的优化、探索和互相改进。

Jan, 2024

大规模语言模型的强化学习问题解决

使用大型语言模型作为强化学习代理以解决对话式强化学习问题，通过提出的提示技术，演示了如何迭代引导语言模型学习和优化特定强化学习任务的策略，并通过两个具体案例研究展示了该方法的实用性。

Apr, 2024

大型语言模型作为双人游戏中的代理

通过在单一统一的机器学习范式中正式定义大型语言模型（LLM）的训练过程，包括预训练、监督微调和强化学习与人类反馈，我们可以获得推进 LLM 技术的重要见解。本文勾勒出 LLM 训练方法与两人博弈中代理人发展所采用的战略之间的相似之处，从博弈论、强化学习和多智能体系统的角度研究。我们提出了一种用基于语言游戏中代理人学习的方式重新构思 LLM 学习过程的框架。这个框架揭示了 LLM 发展中成功和挑战的创新视角，为解决对齐问题等战略考虑提供了新的理解。此外，我们的两人博弈方法为 LLM 训练提供了新颖的数据准备和机器学习技术。

Feb, 2024

大型語言模型增強的知識表示學習：一項調查

大语言模型（LLMs）与知识表示学习（KRL）的整合标志着人工智能领域的重要进展，增强了捕捉和利用复杂知识结构的能力，这种协同作用利用了 LLMs 的高级语言和语境理解能力，提高了 KRL 的准确性、适应性和有效性，从而扩大了其应用和潜力。尽管越来越多的研究关注将 LLMs 嵌入知识表示领域，但对这些增强模型的基本组件和过程的全面回顾明显缺失。我们的调查通过对这些模型进行基于三种不同 Transformer 架构的分类，并分析来自各种 KRL 下游任务的实验数据，评估每种方法的优点和缺点。最后，我们确定并探索这个新兴但未充分开发的领域的潜在未来研究方向，提出了持续进展的路径。

Jul, 2024

基于 LLM 的多智能体强化学习：当前和未来方向

近年来，大型语言模型在问题回答、算术问题解决和诗歌创作等各种任务中展示了强大的能力。尽管关于以大型语言模型为代理的研究表明它可以应用于强化学习并取得不错的结果，但将基于大型语言模型的强化学习扩展到多智能体系统并不容易，因为许多方面，如智能体之间的协调和通信，在单智能体的强化学习框架中没有得到考虑。为了激发更多关于基于大型语言模型的多智能体强化学习的研究，本文调查了现有的基于大型语言模型的单智能体和多智能体强化学习框架，并提供了未来研究的潜在方向。特别关注多智能体共同目标合作任务和它们之间的通信，还考虑了语言组件在框架中实现的人机交互场景。

May, 2024

TeaMs-RL：通过强化学习教授 LLMs 更好地自我指导

通过使用增强学习直接生成基础指令数据集，TeaMs-RL 方法能够在单一微调步骤中提高大型语言模型的能力，减少人为参与需求、模型查询次数以及提高模型隐私保护能力。

Mar, 2024

推荐系统中的大型语言模型调查

本文概论了基于大型语言模型的推荐系统，提出了两种主要类型（分别为判别型 LLM 推荐 DLLM4Rec 和生成型 LLM 推荐 GLLM4Rec），分别从方法、技术和性能等方面对现有的 LLM 推荐系统进行了系统的分类和评估，并指出了主要挑战和有价值的发现。

May, 2023

面向基于文本的教育环境的通用智能体: RL 与 LLMs 的整合研究

通过将强化学习与大型语言模型结合，研究了在开放性文本学习环境中增强代理的泛化能力，提出了三种代理类型：基于强化学习的代理、基于大型语言模型的代理和融合两者的混合代理，以提高代理的性能和泛化能力，并通过 PharmaSimText 提供的基准测试验证了研究成果。结果表明，基于强化学习的代理在任务完成方面表现出色，但在提问诊断问题方面有所欠缺；相反，基于大型语言模型的代理在提问诊断问题方面表现较好，但在完成任务方面表现较差；而混合的大型语言模型辅助强化学习代理能够克服这些限制，凸显了将强化学习和大型语言模型相结合在开放性学习环境中开发高性能代理的潜力。

Apr, 2024

基于大语言模型的推荐系统能够获得何种益处：一项调查

本文综述了基于应用方向的大语言模型在推荐系统中的应用，从‘何处’和‘如何’两方面总结了现有研究工作，并讨论了调整大语言模型到推荐系统中面临的关键挑战和未来前景。

Jun, 2023