使用 LLMs 生成饶有表情的机器人行为与桌面机器人 Haru 的对话

Feb, 2024

使用 LLMs 生成饶有表情的机器人行为与桌面机器人 Haru 的对话

Ain't Misbehavin' -- Using LLMs to Generate Expressive Robot Behavior in Conversations with the Tabletop Robot Haru

Zining Wang, Paul Reisert, Eric Nichols, Randy Gomez

TL;DR通过将大型语言模型（LLMs）整合到社交机器人中，本研究旨在解决传统基于脚本互动的对话方法在维持有趣的对话方面存在的局限性。我们引入了一个完全自动化的对话系统，利用 LLMs 生成具有有表情的机器人回应，与机器人的个性一致。我们结合两种模式的机器人行为：1）具有多种表现风格的文本转语音（TTS）引擎，和 2）用于机器人的动作库。我们开发了一个定制的最先进的情感识别模型，用于动态选择机器人的语调，并利用 LLM 输出中的表情符号作为生成机器人动作的线索。通过一个志愿者与社交机器人进行对话的试验，我们研究和分析了他们的反馈，对聊天记录进行了严格的错误分析，以阐明设计和实现问题。反馈普遍积极，参与者评论机器人具有共情力、乐于助人、自然和娱乐性。最负面的反馈是由于自动语音识别（ASR）错误，这对对话的影响有限。然而，我们观察到了一类较小的错误，如 LLM 的自我重复或虚构信息和人类回答的产生，这可能会破坏对话，引发了 LLM 应用中的重要问题。

Abstract

social robots aim to establish long-term bonds with humans through engaging conversation. However, traditional conversational approaches, reliant on scripted interactions, often fall short in maintaining engaging

social robots conversational approaches large language models expressive behaviors emotion recognition model

发现论文，激发创造

为共创即兴剧院设计和评估对话 LLMs

社交机器人研究者对于多方训练的对话代理越来越感兴趣。本研究在爱丁堡节的一个月长的现场表演中使用大型语言模型（LLMs），调查了在职业剧院环境中，人类演员如何与对话代理合作创作。我们探索了即兴多方对话的技术能力和限制，并从观众和表演者的经验中提供了全面的见解。我们的 “人在环环” 的方法强调了这些 LLMs 在生成与上下文相关的回复方面的挑战，并强调了用户界面的关键作用。观众的反馈表明了对 AI 驱动的现场娱乐、人机直接互动以及对 AI 在创造力支持工具方面多样化的期望。人类演员表达了巨大的热情和不同程度的满意度，而不断演变的公众舆论则凸显了人们对于 AI 在艺术中的角色的复杂情感。

May, 2024

Nadine: 一个由 LLM 驱动的具有情感能力和类人记忆的智能社交机器人

本研究描述了我们开发的智能稳健的 Nadine 社交机器人平台的社交机器人系统，通过整合大型语言模型（LLM）并巧妙利用这类模型的强大推理和遵循指令能力，实现了高级的类人情感和认知能力。这一方法与目前的基于 LLM 的最新技术代理相比是新颖的，因为其没有实现类人长期记忆或复杂的情绪评估。我们构建了一个社交机器人系统，通过多模式输入处理实现生成适当行为，相应识别用户的情节性记忆并模拟机器人与人类伙伴互动导致的情绪状态。特别是，我们引入了一个 LLM 代理框架，SoR-ReAct，作为我们系统中互动模块的核心组件。这一设计推进了社交机器人的发展，旨在提高人机互动的质量。

May, 2024

VoicePilot: 利用语言模型作为机器人辅助的语音界面

通过结合大规模语言模型作为语音界面，我们提出了一个框架，用于将大规模语言模型应用于物理辅助机器人，以实现高水平任务规划和代码生成，并通过实证研究为物理辅助机器人的语音界面设计提供指导。

Apr, 2024

大型语言模型如何促进更好的社交辅助人机交互：简要调查

在本文中，我们对 LLMs 在 SAR 技术中的应用进行了简要调查，并讨论了将 LLMs 应用于 SAR 的三个主要技术挑战（自然语言对话、多模态理解和 LLMs 作为机器人策略）的潜力和风险。

Apr, 2024

LLM 驱动的机器人存在歧视、暴力和非法行为风险

人机交互 (HRI) 和人工智能 (AI) 社区提出了大型语言模型（LLMs）作为机器人任务的一个有前景的资源，然而最近的研究引发了对 LLMs 在真实世界机器人实验和应用中产生歧视性结果和不安全行为的担忧。为了解决这些问题，我们在几个高评级的 LLMs 上进行了基于 HRI 的歧视和安全评估，发现它们在遇到具有多样性的受保护身份特征（例如种族、性别、残疾状况、国籍、宗教和交叉特征）的人时，产生了与直接歧视结果一致的偏见输出；此外，我们在自由语言输入环境中测试模型，发现它们不能安全行动，生成的回应接受有危险、暴力或非法指令，例如引发事故的错误陈述、夺取人们的移动辅助设备和性侵行为。我们的结果强调了迫切需要系统、常规和全面的风险评估和保证，以改善结果，并确保 LLMs 只在安全、有效和公正的情况下在机器人上运行。数据和代码将提供。

Jun, 2024

大型语言模型是否与人类的社会直觉对人机交互保持一致？

本研究探索了大型语言模型在人机交互领域的表现，对比实际参与者的答案，结果显示 GPT-4 在选择适当的沟通行为和评判行为可取性、意图和令人惊讶程度等方面表现较好，但在判断人机行为差异方面成绩不佳，同时指出视觉模型无法完全抓住视频刺激的本质，且大型语言模型对不同沟通行为的评分和行为可取性分数较高。

Mar, 2024

面向人机交互的大型语言模型：机遇与风险

通过对大型语言模型在社交机器人中的潜力进行分析，本研究侧重于教育、医疗和娱乐等社交机器人的应用，并对这些语言模型如何安全地接受培训以 “理解” 社会规范和问题进行了研究，以期为其他有兴趣将语言模型融入机器人的研究人员提供有益指导。

Mar, 2024

以细微之处增强基于 LLM 的人机交互，以提升多样性意识

通过利用大规模语言模型的能力，本文提出了一套针对多样化感知的自主对话系统，该系统适应不同人群和个体，考虑到背景、个性、年龄、性别和文化等因素，对话过程由系统预设的知识库架构引导，并利用语言模型生成多样化感知的句子，通过提供精心设计的提示，融合了关于用户、对话历史、语境细节和具体指导的综合信息。我们进行了受控实验和现实世界实验来评估系统的性能，测量了一系列性能指标。

Jun, 2024

我们中的语言生成机器人：生成型人工智能参与数字交流

在 Mastodon 社交媒体平台上，我们使用了 “LLMs Among Us” 实验框架构建了 10 个角色来研究大型语言模型的潜力和威胁，发现参与者只有 42% 的准确率能识别出其他用户的真实性。此外，我们还发现角色的选择对于人的感知影响比主流大型语言模型的选择更大。

Feb, 2024

作为零样本人类模型的大型语言模型用于人机交互

本文探索了使用大型语言模型作为 HRI 的 0 模型的潜力，并在三个社交数据集上进行了实验，结果显示 LLMs 能够实现与定制模型相当的性能，同时还讨论了当前的限制。基于我们的发现，我们展示了 LLM 人类模型如何集成到社交机器人的规划过程中并应用于 HRI 场景。我们的结果表明 LLMs 为 HRI 的人类建模提供了一种有前途但不完整的方法。

Mar, 2023