VoicePilot: 利用语言模型作为机器人辅助的语音界面
该研究全面概述了大型语言模型(LLMs)和多模态 LLMs 在各种机器人任务中的整合,并提出了一种利用多模态 GPT-4V 结合自然语言指令和机器人视觉感知增强具身任务规划的框架。基于多样化的数据集,我们的结果表明 GPT-4V 有效地提升了机器人在具身任务中的表现。对 LLMs 和多模态 LLMs 在各种机器人任务中的广泛调查和评估丰富了对以 LLMs 为中心的具身智能的理解,并提供了展望未来的关于人机环境交互的见解。
Jan, 2024
理解和评估机器人的灵活智能是一项复杂的任务,该综述回顾了大型语言模型在机器人领域的应用和对机器人控制、感知、决策制定和路径规划等关键领域的贡献,以及它们面临的潜在挑战。
Nov, 2023
通过利用大型语言模型 (LLMs) 的升级力量,本研究关注于构建一个可作为用户与用户界面之间中介的框架,通过对自然文本输入进行彻底分析,有效地理解用户需求,使得精心设计的 LLM 引擎能够分类最可能的可用应用程序,识别所需的用户界面组件,并随后执行用户预期行为,从而将静态用户界面系统转变为高度动态和适应性强的解决方案,引入智能和响应式用户体验的新领域。这样的框架可以从根本上改变用户完成日常任务的方式,提高效率,并大大减少认知负荷。
Feb, 2024
通过使用基于大型语言模型的规划器,我们克服了当前固定技能集的限制,提出了一种用于数据和时间高效教授机器人这些技能的方法,该系统可以重复使用新习得的技能,展示了开放世界和终身学习的潜力。
Sep, 2023
通过将大型语言模型(LLMs)整合到社交机器人中,本研究旨在解决传统基于脚本互动的对话方法在维持有趣的对话方面存在的局限性。我们引入了一个完全自动化的对话系统,利用 LLMs 生成具有有表情的机器人回应,与机器人的个性一致。我们结合两种模式的机器人行为:1)具有多种表现风格的文本转语音(TTS)引擎,和 2)用于机器人的动作库。我们开发了一个定制的最先进的情感识别模型,用于动态选择机器人的语调,并利用 LLM 输出中的表情符号作为生成机器人动作的线索。通过一个志愿者与社交机器人进行对话的试验,我们研究和分析了他们的反馈,对聊天记录进行了严格的错误分析,以阐明设计和实现问题。反馈普遍积极,参与者评论机器人具有共情力、乐于助人、自然和娱乐性。最负面的反馈是由于自动语音识别(ASR)错误,这对对话的影响有限。然而,我们观察到了一类较小的错误,如 LLM 的自我重复或虚构信息和人类回答的产生,这可能会破坏对话,引发了 LLM 应用中的重要问题。
Feb, 2024
该论文介绍了一种利用大型语言模型(LLM)进行自主机器人操纵的新方法,通过逻辑推理将高层语言命令转化为可执行的运动函数序列。所提出的系统将 LLM 的优势与基于 YOLO 的环境感知相结合,使机器人能够根据给定的命令自主做出合理的决策和任务规划。此外,为了解决 LLM 可能出现的不准确性或不合逻辑的行为,采用了远程操作和动态运动原理(DMP)的组合进行行为校正。这种融合旨在提高 LLM 基础的人机协作系统的实用性和通用性。
Aug, 2023
在机器人的交互感知中,使用预先训练的大型语言模型(LLMs)作为交互感知框架,并将其应用于决策问题以及规划多模态环境中的任务执行,这样可以通过感知来指导认知行为和高层次的决策规划,这种方法可以显著提高任务完成的准确性和效率。
Mar, 2023
本文探索了使用大型语言模型作为 HRI 的 0 模型的潜力,并在三个社交数据集上进行了实验,结果显示 LLMs 能够实现与定制模型相当的性能,同时还讨论了当前的限制。基于我们的发现,我们展示了 LLM 人类模型如何集成到社交机器人的规划过程中并应用于 HRI 场景。我们的结果表明 LLMs 为 HRI 的人类建模提供了一种有前途但不完整的方法。
Mar, 2023
通过对大型语言模型在社交机器人中的潜力进行分析,本研究侧重于教育、医疗和娱乐等社交机器人的应用,并对这些语言模型如何安全地接受培训以 “理解” 社会规范和问题进行了研究,以期为其他有兴趣将语言模型融入机器人的研究人员提供有益指导。
Mar, 2024