SRLM：基于大型语言模型和深度强化学习的人机交互社交机器人导航

Mar, 2024

SRLM：基于大型语言模型和深度强化学习的人机交互社交机器人导航

SRLM: Human-in-Loop Interactive Social Robot Navigation with Large Language Model and Deep Reinforcement Learning

Weizheng Wang, Le Mao, Ruiqi Wang, Byung-Cheol Min

TL;DR我们提出了一种新的混合方法，称为社交机器人规划器 (SRLM)，它将大型语言模型 (LLM) 和深度强化学习 (DRL) 相结合，以在人满为患的公共场所为人们提供多种社交服务。SRLM 通过实时人类指令推断全局规划，并将社交信息编码到基于 LLM 的大型导航模型 (LNM) 中进行低层运动执行。此外，设计了一种基于 DRL 的规划器来保持基准性能，通过大型反馈模型 (LFM) 与 LNM 融合，以解决当前文本和 LLM 驱动的 LNM 的不稳定性。最后，SRLM 在广泛的实验证明表现出色。

Abstract

An interactive social robotic assistant must provide services in complex and crowded spaces while adapting its behavior based on real-time human language commands or feedback. In this paper, we propose a novel hybrid ap

interactive social robotic assistant hybrid approach social robot planner large language models deep reinforcement learning

发现论文，激发创造

LLM A*：人在循环大型语言模型启用的 A * 搜索用于机器人技术

研究聚焦于大型语言模型如何以人机交互的方式帮助移动体代理（如机器人）的路径规划。提出了名为 LLM A * 的创新框架，旨在利用 LLM 的常识，采用效用最优的 A * 算法来实现少样本近最优路径规划。通过引导 LLM 以求解 ` 白盒 ' 的路径规划过程，并将人类反馈作为引导，相较于基于强化学习的规划方法，如 RL，使得无需编码的路径规划变得实用，并且推广了人工智能技术的包容性。与 A * 和 RL 的对比分析表明，LLM A * 在搜索空间方面更高效，能达到与 A * 相当的路径并优于 RL。LLM A * 的交互性还使其成为协作人机任务部署中具有潜力的工具。

Dec, 2023

基于基础模型的人机协同持续机器人学习

通过使用基于大型语言模型的规划器，我们克服了当前固定技能集的限制，提出了一种用于数据和时间高效教授机器人这些技能的方法，该系统可以重复使用新习得的技能，展示了开放世界和终身学习的潜力。

Sep, 2023

基于 LLM 的人机协作框架用于操作任务

该论文介绍了一种利用大型语言模型（LLM）进行自主机器人操纵的新方法，通过逻辑推理将高层语言命令转化为可执行的运动函数序列。所提出的系统将 LLM 的优势与基于 YOLO 的环境感知相结合，使机器人能够根据给定的命令自主做出合理的决策和任务规划。此外，为了解决 LLM 可能出现的不准确性或不合逻辑的行为，采用了远程操作和动态运动原理（DMP）的组合进行行为校正。这种融合旨在提高 LLM 基础的人机协作系统的实用性和通用性。

Aug, 2023

利用大型语言模型自动化并加快使用奖励机制的强化学习

我们提出了 LARL-RM 算法，利用自动机将高层知识编码到强化学习中，以加速强化学习过程，同时使用大型语言模型通过提示工程来获取高层领域特定知识，避免了需要专家编码自动机的问题，且能够在无需专家指导和监督下进行全闭环强化学习，我们还展示了算法收敛到最优策略的理论保证，并通过两个案例研究实现了 30% 的加速收敛。

Feb, 2024

利用大型语言模型的反馈加速机器人操控的强化学习

通过利用大型语言模型的及时反馈，Lafite-RL（语言代理反馈互动式强化学习）框架使强化学习智能体能够有效地学习机器人任务，实验结果表明，Lafite-RL 智能体在自然语言的简单提示设计下，通过大型语言模型的引导在学习效率和成功率方面优于基准模型，凸显了大型语言模型所提供的奖励的功效。

Nov, 2023

大规模语言模型的强化学习问题解决

使用大型语言模型作为强化学习代理以解决对话式强化学习问题，通过提出的提示技术，演示了如何迭代引导语言模型学习和优化特定强化学习任务的策略，并通过两个具体案例研究展示了该方法的实用性。

Apr, 2024

部分可观察机器人任务的大型语言模型交互规划

使用大型语言模型（LLMs）的互动规划技术，通过机器人收集环境中缺失的信息并推断底层问题的状态，从而指导机器人执行所需的动作。

Dec, 2023

LLM-Personalize: 通过强化自我训练使 LLM 规划器与人类偏好保持一致的家务机器人

通过优化流程，个性化 LLM 规划器以适应个体用户偏好，大幅提高与人类偏好的一致性。

Apr, 2024

自我完善的大型语言模型作为机器人深度强化学习的自动奖励函数设计者

我们提出了一个带有自我完善机制的新型大语言模型框架，用于自动化奖励函数设计。通过在多个连续机器人控制任务上的实验，结果表明我们的大语言模型设计的奖励函数能够与手动设计的奖励函数相媲美甚至超越，突显了我们方法的效果和适用性。

Sep, 2023

Plan-Seq-Learn: 语言模型引导强化学习解决长时程机器人任务

利用大型语言模型（LLMs）和运动规划，提出了一种模块化方法 Plan-Seq-Learn（PSL），将抽象语言和学习到的低级控制相结合，从头开始解决长期目标的机器人任务，并在超过 25 个具有挑战性的机器人任务中取得了最先进的结果。

May, 2024