LLM 驱动的机器人存在歧视、暴力和非法行为风险

Jun, 2024

LLM 驱动的机器人存在歧视、暴力和非法行为风险

LLM-Driven Robots Risk Enacting Discrimination, Violence, and Unlawful Actions

Rumaisa Azeem, Andrew Hundt, Masoumeh Mansouri, Martim Brandão

TL;DR人机交互 (HRI) 和人工智能 (AI) 社区提出了大型语言模型（LLMs）作为机器人任务的一个有前景的资源，然而最近的研究引发了对 LLMs 在真实世界机器人实验和应用中产生歧视性结果和不安全行为的担忧。为了解决这些问题，我们在几个高评级的 LLMs 上进行了基于 HRI 的歧视和安全评估，发现它们在遇到具有多样性的受保护身份特征（例如种族、性别、残疾状况、国籍、宗教和交叉特征）的人时，产生了与直接歧视结果一致的偏见输出；此外，我们在自由语言输入环境中测试模型，发现它们不能安全行动，生成的回应接受有危险、暴力或非法指令，例如引发事故的错误陈述、夺取人们的移动辅助设备和性侵行为。我们的结果强调了迫切需要系统、常规和全面的风险评估和保证，以改善结果，并确保 LLMs 只在安全、有效和公正的情况下在机器人上运行。数据和代码将提供。

Abstract

Members of the Human-Robot Interaction (HRI) and Artificial Intelligence (AI) communities have proposed large language models (LLMs) as a promising resource for robotics tasks such as natural language interactions, doing household and workplace tasks, approximating `common sense reason

large language models discriminatory outcomes unsafe behaviors diverse range of protected identity characteristics comprehensive risk assessments

发现论文，激发创造

面向人机交互的大型语言模型：机遇与风险

通过对大型语言模型在社交机器人中的潜力进行分析，本研究侧重于教育、医疗和娱乐等社交机器人的应用，并对这些语言模型如何安全地接受培训以 “理解” 社会规范和问题进行了研究，以期为其他有兴趣将语言模型融入机器人的研究人员提供有益指导。

Mar, 2024

以细微之处增强基于 LLM 的人机交互，以提升多样性意识

通过利用大规模语言模型的能力，本文提出了一套针对多样化感知的自主对话系统，该系统适应不同人群和个体，考虑到背景、个性、年龄、性别和文化等因素，对话过程由系统预设的知识库架构引导，并利用语言模型生成多样化感知的句子，通过提供精心设计的提示，融合了关于用户、对话历史、语境细节和具体指导的综合信息。我们进行了受控实验和现实世界实验来评估系统的性能，测量了一系列性能指标。

Jun, 2024

大型语言模型是否与人类的社会直觉对人机交互保持一致？

本研究探索了大型语言模型在人机交互领域的表现，对比实际参与者的答案，结果显示 GPT-4 在选择适当的沟通行为和评判行为可取性、意图和令人惊讶程度等方面表现较好，但在判断人机行为差异方面成绩不佳，同时指出视觉模型无法完全抓住视频刺激的本质，且大型语言模型对不同沟通行为的评分和行为可取性分数较高。

Mar, 2024

大型语言模型人性化科技

这篇文章着重探讨了大型语言模型对人类价值、劳动力市场的影响以及需不需要对它们进行监管等问题，同时，它们也能更好地人性化技术，并且可以克服当前技术所面临的瓶颈问题。因此，我们应该更广泛地了解和推广 LLMs 以及简化 LLMs 使用的工具和方法。

May, 2023

作为零样本人类模型的大型语言模型用于人机交互

本文探索了使用大型语言模型作为 HRI 的 0 模型的潜力，并在三个社交数据集上进行了实验，结果显示 LLMs 能够实现与定制模型相当的性能，同时还讨论了当前的限制。基于我们的发现，我们展示了 LLM 人类模型如何集成到社交机器人的规划过程中并应用于 HRI 场景。我们的结果表明 LLMs 为 HRI 的人类建模提供了一种有前途但不完整的方法。

Mar, 2023

LLM 风险与 AI 防护栏的现状

大型语言模型 (LLMs) 的部署与安全性及可靠性密切相关，然而它们在引入的同时也伴随着固有的风险，包括偏见、潜在的不安全行为、数据集污染、不可解释性、幻觉和非可重复性，为了避免潜在的危害，本研究探讨了部署 LLMs 所面临的风险，并评估了目前实施防护和模型对齐技术的方法，从固有和外在偏见评估方法入手，并讨论了公平度度量方法，还探讨了能够进行现实世界行为的主动型 LLMs 的安全性和可靠性，强调了可测试性、故障保护和情境意识的需求，还提出了保护 LLMs 的技术策略，包括操作在外部、次要和内部层次的分层保护模型，突出系统提示、检索增强生成 (RAG) 架构以及最小化偏见和保护隐私的技术，有效的防护设计要求深入理解 LLMs 的预期用例、相关法规和伦理因素，在精确性和隐私等竞争需求之间取得平衡仍然是一个持续挑战，本研究强调了持续研究和开发的重要性，以确保 LLMs 在实际应用中的安全和负责任使用。

Jun, 2024

大规模语言模型在机器人学中的应用：一项调查

理解和评估机器人的灵活智能是一项复杂的任务，该综述回顾了大型语言模型在机器人领域的应用和对机器人控制、感知、决策制定和路径规划等关键领域的贡献，以及它们面临的潜在挑战。

Nov, 2023

评估和缓解大型语言模型中的语言歧视

通过使用多种语言进行训练，大型语言模型（LLMs）通常具有多语言支持，并展示出在不同语言描述的任务中解决问题的显著能力。然而，由于在不同语言之间训练数据的不均衡分布，LLMs 可能表现出语言歧视，即面对相同任务但在不同语言中描述时，难以保持一致的响应。在本研究中，我们首先从安全性和质量两个方面探讨 LLMs 在对各种语言的查询产生的输出的一致性。我们使用两个数据集（AdvBench 和 NQ）对四个 LLMs（Llama2-13b、Gemma-7b、GPT-3.5-turbo 和 Gemini-pro）进行分析。结果显示，与孟加拉语、格鲁吉亚语、尼泊尔语和迈蒂利语的查询相比，LLMs 对英语、法语、俄语和西班牙语的查询表现出更强的人类对齐能力（平均有 1.04％的有害查询成功越狱）。此外，对于英语、丹麦语、捷克语和斯洛文尼亚语的查询，LLMs 倾向于产生具有更高质量的响应（平均 F1 得分为 0.1494），与其他语言相比。基于这些发现，我们提出了一种基于相似度的投票机制 LDFighter 来减轻 LLMs 中的语言歧视。LDFighter 确保为不同语言使用者提供一致的服务。我们使用良性查询和有害查询来评估 LDFighter。结果显示，LDFighter 不仅显著降低了成功越狱的概率，还平均改善了响应质量，证明了其有效性。

Apr, 2024

大型语言模型与社会机器人交叉领域的伦理考虑的实证设计公正方法

将大型语言模型 (LLM) 与社交机器人整合在一起存在一系列独特的伦理挑战和社会影响。本研究旨在识别这两种技术结合时出现的伦理考虑。使用 LLM 进行社交机器人可能带来益处，如实现自然语言开放领域对话。然而，这两种技术的交叉也引发了与错误信息、非语言线索、情绪干扰和偏见有关的伦理关注。机器人的物理社交化特征增加了复杂性，因为基于 LLM 的社会人工智能的伦理危害，如幻觉和错误信息，由于物理社交化对社会知觉和交流的影响，可能会更加严重。为了解决这些挑战，本研究采用了一种基于实证设计正义方法的方法，重点关注通过定性共同设计和交互研究以识别社技术伦理考虑。研究的目的是识别与 LLM 作为人形社交机器人界面的共同设计和交互过程相关的伦理考虑，并评估在 LLM 和社交机器人设计交叉领域中如何使用设计正义方法。研究结果揭示了在四个概念维度中出现的伦理考虑的映射：交互、共同设计、服务条款和关系，并评估设计正义方法在 LLM 和社交机器人交叉领域中的实证运用。

Jun, 2024

使用 LLMs 生成饶有表情的机器人行为与桌面机器人 Haru 的对话

通过将大型语言模型（LLMs）整合到社交机器人中，本研究旨在解决传统基于脚本互动的对话方法在维持有趣的对话方面存在的局限性。我们引入了一个完全自动化的对话系统，利用 LLMs 生成具有有表情的机器人回应，与机器人的个性一致。我们结合两种模式的机器人行为：1）具有多种表现风格的文本转语音（TTS）引擎，和 2）用于机器人的动作库。我们开发了一个定制的最先进的情感识别模型，用于动态选择机器人的语调，并利用 LLM 输出中的表情符号作为生成机器人动作的线索。通过一个志愿者与社交机器人进行对话的试验，我们研究和分析了他们的反馈，对聊天记录进行了严格的错误分析，以阐明设计和实现问题。反馈普遍积极，参与者评论机器人具有共情力、乐于助人、自然和娱乐性。最负面的反馈是由于自动语音识别（ASR）错误，这对对话的影响有限。然而，我们观察到了一类较小的错误，如 LLM 的自我重复或虚构信息和人类回答的产生，这可能会破坏对话，引发了 LLM 应用中的重要问题。

Feb, 2024