将苹果与橙子进行比较：在物体分类任务中使用 LLM 强化的多模态意图预测

Apr, 2024

将苹果与橙子进行比较：在物体分类任务中使用 LLM 强化的多模态意图预测

Comparing Apples to Oranges: LLM-powered Multimodal Intention Prediction in an Object Categorization Task

Hassan Ali, Philipp Allgeuer, Stefan Wermter

TL;DR应用大型语言模型进行人机交互中人类意图推断的 hierarchical 方法评估

Abstract

intention-based human-robot interaction (HRI) systems allow robots to perceive and interpret user actions to proactively interact with humans and adapt to their behavior. Therefore, intention prediction is pivota

intention-based human-robot interaction large language models user non-verbal cues collaborative object categorization intention prediction

发现论文，激发创造

大型语言模型驱动的积极人机协作意图跟踪 —— 机器人助理厨师应用

利用大型语言模型和视觉语言模型，提出基于语言的意图跟踪（LIT）方法，用于预测人类用户的下一个意图以引导机器人进行主动的协作，实现长期协作任务中机器人和人类用户之间的顺畅协调。

Jun, 2024

与环境对话：使用大型语言模型进行交互式多模态感知

在机器人的交互感知中，使用预先训练的大型语言模型（LLMs）作为交互感知框架，并将其应用于决策问题以及规划多模态环境中的任务执行，这样可以通过感知来指导认知行为和高层次的决策规划，这种方法可以显著提高任务完成的准确性和效率。

Mar, 2023

通过人机协作增强基于 LLM 的机器人操控

通过人机协作的方式，本文提出了一种增强基于大型语言模型的自主操作的方法，并应用于机器人的高级语言指令解析、运动规划和理解环境。在与人类的互动过程中，通过结合远程操作和动态运动原理实现机器人从人类引导中学习。通过实验表明，在复杂轨迹规划和环境推理方面，基于大型语言模型的机器人通过融入人类示范可以高效地完成任务。

Jun, 2024

大型语言模型是否与人类的社会直觉对人机交互保持一致？

本研究探索了大型语言模型在人机交互领域的表现，对比实际参与者的答案，结果显示 GPT-4 在选择适当的沟通行为和评判行为可取性、意图和令人惊讶程度等方面表现较好，但在判断人机行为差异方面成绩不佳，同时指出视觉模型无法完全抓住视频刺激的本质，且大型语言模型对不同沟通行为的评分和行为可取性分数较高。

Mar, 2024

基于 LLM 的人机协作框架用于操作任务

该论文介绍了一种利用大型语言模型（LLM）进行自主机器人操纵的新方法，通过逻辑推理将高层语言命令转化为可执行的运动函数序列。所提出的系统将 LLM 的优势与基于 YOLO 的环境感知相结合，使机器人能够根据给定的命令自主做出合理的决策和任务规划。此外，为了解决 LLM 可能出现的不准确性或不合逻辑的行为，采用了远程操作和动态运动原理（DMP）的组合进行行为校正。这种融合旨在提高 LLM 基础的人机协作系统的实用性和通用性。

Aug, 2023

作为零样本人类模型的大型语言模型用于人机交互

本文探索了使用大型语言模型作为 HRI 的 0 模型的潜力，并在三个社交数据集上进行了实验，结果显示 LLMs 能够实现与定制模型相当的性能，同时还讨论了当前的限制。基于我们的发现，我们展示了 LLM 人类模型如何集成到社交机器人的规划过程中并应用于 HRI 场景。我们的结果表明 LLMs 为 HRI 的人类建模提供了一种有前途但不完整的方法。

Mar, 2023

VoicePilot: 利用语言模型作为机器人辅助的语音界面

通过结合大规模语言模型作为语音界面，我们提出了一个框架，用于将大规模语言模型应用于物理辅助机器人，以实现高水平任务规划和代码生成，并通过实证研究为物理辅助机器人的语音界面设计提供指导。

Apr, 2024

部分可观察机器人任务的大型语言模型交互规划

使用大型语言模型（LLMs）的互动规划技术，通过机器人收集环境中缺失的信息并推断底层问题的状态，从而指导机器人执行所需的动作。

Dec, 2023

大规模语言模型在机器人学中的应用：一项调查

理解和评估机器人的灵活智能是一项复杂的任务，该综述回顾了大型语言模型在机器人领域的应用和对机器人控制、感知、决策制定和路径规划等关键领域的贡献，以及它们面临的潜在挑战。

Nov, 2023

利用视听转换器的主动人机交互

提出了一种基于视觉 - 语言多模态转换器的方法，通过从场景中提取视觉线索、用户的语言命令和对先前物体之间的交互的知识，识别和主动预测用户打算实现的潜在目标，并在适当的情况下主动建议任务，从而改进人机协作的直观程度。

Oct, 2023