VoicePilot: 利用语言模型作为机器人辅助的语音界面

Apr, 2024

VoicePilot: 利用语言模型作为机器人辅助的语音界面

VoicePilot: Harnessing LLMs as Speech Interfaces for Physically Assistive Robots

Akhil Padmanabha, Jessie Yuan, Janavi Gupta, Zulekha Karachiwalla, Carmel Majidi...

TL;DR通过结合大规模语言模型作为语音界面，我们提出了一个框架，用于将大规模语言模型应用于物理辅助机器人，以实现高水平任务规划和代码生成，并通过实证研究为物理辅助机器人的语音界面设计提供指导。

Abstract

physically assistive robots present an opportunity to significantly increase the well-being and independence of individuals with motor impairments or other forms of disability who are unable to complete activities of daily living. →

physically assistive robots speech interfaces large language models high-level task planning assistive interfaces

发现论文，激发创造

用大型语言模型引导机器人行走

使用自然语言处理模型（LLMs）通过少量样本来实现机器人的动态运动控制，充分展示了机器人领域中大规模预训练模型的潜力。

Sep, 2023

大型语言模型在机器人领域的应用：机遇、挑战与展望

该研究全面概述了大型语言模型（LLMs）和多模态 LLMs 在各种机器人任务中的整合，并提出了一种利用多模态 GPT-4V 结合自然语言指令和机器人视觉感知增强具身任务规划的框架。基于多样化的数据集，我们的结果表明 GPT-4V 有效地提升了机器人在具身任务中的表现。对 LLMs 和多模态 LLMs 在各种机器人任务中的广泛调查和评估丰富了对以 LLMs 为中心的具身智能的理解，并提供了展望未来的关于人机环境交互的见解。

Jan, 2024

大规模语言模型在机器人学中的应用：一项调查

理解和评估机器人的灵活智能是一项复杂的任务，该综述回顾了大型语言模型在机器人领域的应用和对机器人控制、感知、决策制定和路径规划等关键领域的贡献，以及它们面临的潜在挑战。

Nov, 2023

大型语言用户界面：由 LLM 驱动的语音交互用户界面

通过利用大型语言模型 (LLMs) 的升级力量，本研究关注于构建一个可作为用户与用户界面之间中介的框架，通过对自然文本输入进行彻底分析，有效地理解用户需求，使得精心设计的 LLM 引擎能够分类最可能的可用应用程序，识别所需的用户界面组件，并随后执行用户预期行为，从而将静态用户界面系统转变为高度动态和适应性强的解决方案，引入智能和响应式用户体验的新领域。这样的框架可以从根本上改变用户完成日常任务的方式，提高效率，并大大减少认知负荷。

Feb, 2024

基于基础模型的人机协同持续机器人学习

通过使用基于大型语言模型的规划器，我们克服了当前固定技能集的限制，提出了一种用于数据和时间高效教授机器人这些技能的方法，该系统可以重复使用新习得的技能，展示了开放世界和终身学习的潜力。

Sep, 2023

使用 LLMs 生成饶有表情的机器人行为与桌面机器人 Haru 的对话

通过将大型语言模型（LLMs）整合到社交机器人中，本研究旨在解决传统基于脚本互动的对话方法在维持有趣的对话方面存在的局限性。我们引入了一个完全自动化的对话系统，利用 LLMs 生成具有有表情的机器人回应，与机器人的个性一致。我们结合两种模式的机器人行为：1）具有多种表现风格的文本转语音（TTS）引擎，和 2）用于机器人的动作库。我们开发了一个定制的最先进的情感识别模型，用于动态选择机器人的语调，并利用 LLM 输出中的表情符号作为生成机器人动作的线索。通过一个志愿者与社交机器人进行对话的试验，我们研究和分析了他们的反馈，对聊天记录进行了严格的错误分析，以阐明设计和实现问题。反馈普遍积极，参与者评论机器人具有共情力、乐于助人、自然和娱乐性。最负面的反馈是由于自动语音识别（ASR）错误，这对对话的影响有限。然而，我们观察到了一类较小的错误，如 LLM 的自我重复或虚构信息和人类回答的产生，这可能会破坏对话，引发了 LLM 应用中的重要问题。

Feb, 2024

基于 LLM 的人机协作框架用于操作任务

该论文介绍了一种利用大型语言模型（LLM）进行自主机器人操纵的新方法，通过逻辑推理将高层语言命令转化为可执行的运动函数序列。所提出的系统将 LLM 的优势与基于 YOLO 的环境感知相结合，使机器人能够根据给定的命令自主做出合理的决策和任务规划。此外，为了解决 LLM 可能出现的不准确性或不合逻辑的行为，采用了远程操作和动态运动原理（DMP）的组合进行行为校正。这种融合旨在提高 LLM 基础的人机协作系统的实用性和通用性。

Aug, 2023

与环境对话：使用大型语言模型进行交互式多模态感知

在机器人的交互感知中，使用预先训练的大型语言模型（LLMs）作为交互感知框架，并将其应用于决策问题以及规划多模态环境中的任务执行，这样可以通过感知来指导认知行为和高层次的决策规划，这种方法可以显著提高任务完成的准确性和效率。

Mar, 2023

作为零样本人类模型的大型语言模型用于人机交互

本文探索了使用大型语言模型作为 HRI 的 0 模型的潜力，并在三个社交数据集上进行了实验，结果显示 LLMs 能够实现与定制模型相当的性能，同时还讨论了当前的限制。基于我们的发现，我们展示了 LLM 人类模型如何集成到社交机器人的规划过程中并应用于 HRI 场景。我们的结果表明 LLMs 为 HRI 的人类建模提供了一种有前途但不完整的方法。

Mar, 2023

面向人机交互的大型语言模型：机遇与风险

通过对大型语言模型在社交机器人中的潜力进行分析，本研究侧重于教育、医疗和娱乐等社交机器人的应用，并对这些语言模型如何安全地接受培训以 “理解” 社会规范和问题进行了研究，以期为其他有兴趣将语言模型融入机器人的研究人员提供有益指导。

Mar, 2024