大型语言模型是否与人类的社会直觉对人机交互保持一致？

Mar, 2024

大型语言模型是否与人类的社会直觉对人机交互保持一致？

Are Large Language Models Aligned with People's Social Intuitions for Human-Robot Interactions?

Lennart Wachowiak, Andrew Coles, Oya Celiktutan, Gerard Canal

TL;DR本研究探索了大型语言模型在人机交互领域的表现，对比实际参与者的答案，结果显示 GPT-4 在选择适当的沟通行为和评判行为可取性、意图和令人惊讶程度等方面表现较好，但在判断人机行为差异方面成绩不佳，同时指出视觉模型无法完全抓住视频刺激的本质，且大型语言模型对不同沟通行为的评分和行为可取性分数较高。

Abstract

large language models (LLMs) are increasingly used in robotics, especially for high-level action planning. Meanwhile, many robotics applic

large language models robotics human-robot interaction behavior judgments communication preferences

发现论文，激发创造

作为零样本人类模型的大型语言模型用于人机交互

本文探索了使用大型语言模型作为 HRI 的 0 模型的潜力，并在三个社交数据集上进行了实验，结果显示 LLMs 能够实现与定制模型相当的性能，同时还讨论了当前的限制。基于我们的发现，我们展示了 LLM 人类模型如何集成到社交机器人的规划过程中并应用于 HRI 场景。我们的结果表明 LLMs 为 HRI 的人类建模提供了一种有前途但不完整的方法。

Mar, 2023

大型语言模型假设人类比实际更加理性

AI 系统需要理解我们的决策方式以便与人类有效沟通，然而人类的决策并不总是理性的，因此大型语言模型（LLMs）中的人类决策的隐性内部模型必须考虑这一点。先前的实证证据似乎表明这些隐性模型是准确的，LLMs 在日常互动中呈现出了人类行为的可信代理。然而，通过将 LLM 的行为和预测与大量人类决策的数据集进行比较，我们发现情况实际上并非如此：在模拟和预测人类选择时，一套尖端的 LLMs（GPT-4o 和 4-Turbo，Llama-3-8B 和 70B，Claude 3 Opus）假设人们比实际更理性。具体而言，这些模型偏离了人类行为，更接近于经典的理性选择模型 - 预期值理论。有趣的是，人们在解释他人行为时也倾向于假设他人是理性的。因此，当我们使用另一个心理学数据集比较 LLMs 和人类从他人决策中得出的推理时，我们发现这些推理之间高度相关。因此，LLMs 的隐性决策模型似乎与人类预期他人会理性行事的期望相一致，而不是与人们实际行动相一致。

Jun, 2024

大型语言模型在机器人领域的应用：机遇、挑战与展望

该研究全面概述了大型语言模型（LLMs）和多模态 LLMs 在各种机器人任务中的整合，并提出了一种利用多模态 GPT-4V 结合自然语言指令和机器人视觉感知增强具身任务规划的框架。基于多样化的数据集，我们的结果表明 GPT-4V 有效地提升了机器人在具身任务中的表现。对 LLMs 和多模态 LLMs 在各种机器人任务中的广泛调查和评估丰富了对以 LLMs 为中心的具身智能的理解，并提供了展望未来的关于人机环境交互的见解。

Jan, 2024

探索大型语言模型用于实现人机协作的可变自主性

该论文探讨了将大型语言模型（如生成式预训练变换器 GPT）整合到人机合作环境中，通过口头人机交流手段促进可变自主性的快速发展的数字景观中，介绍了一种基于 Unity 虚拟现实（VR）环境的 GPT 驱动多机器人测试平台的创新框架。用户研究表明，用户对于与机器人对话的预设期望较高，却很少尝试探索机器人合作伙伴的实际语言和认知能力，但那些进行探索的用户能从更自然的沟通和人类式的双向交流中受益。我们提供了一组对未来研究和类似系统的技术实施的经验教训。

Dec, 2023

面向人机交互的大型语言模型：机遇与风险

通过对大型语言模型在社交机器人中的潜力进行分析，本研究侧重于教育、医疗和娱乐等社交机器人的应用，并对这些语言模型如何安全地接受培训以 “理解” 社会规范和问题进行了研究，以期为其他有兴趣将语言模型融入机器人的研究人员提供有益指导。

Mar, 2024

语言模型中出现的类人直觉行为和推理偏见 —— 以及 GPT-4 中的消失

本研究通过使用心理学方法，展示了大型语言模型（LLMs），尤其是 GPT-3，表现出类似于人类直觉的行为和认知错误，而具有更高认知能力的 LLMs，特别是 ChatGPT 和 GPT-4，学会避免这些错误，并表现出超理性的方式；此外，我们还探究了直觉决策倾向的稳定程度。

Jun, 2023

通过人机协作增强基于 LLM 的机器人操控

通过人机协作的方式，本文提出了一种增强基于大型语言模型的自主操作的方法，并应用于机器人的高级语言指令解析、运动规划和理解环境。在与人类的互动过程中，通过结合远程操作和动态运动原理实现机器人从人类引导中学习。通过实验表明，在复杂轨迹规划和环境推理方面，基于大型语言模型的机器人通过融入人类示范可以高效地完成任务。

Jun, 2024

LLM 代理人是否表现出社会行为？

大型语言模型在社交科学研究和实际应用中的作用被不断拓展，然而在与人类和其他代理进行交互时，这些模型展现了一系列人类类似的社交行为，同时也存在一些行为差异，因此需要进一步研究和发展评估协议，以直接应用这些模型来模拟人类行为。

Dec, 2023

利用大语言模型将自然语言转换为计划目标

本研究探讨了大型语言模型是否能够将自然语言的目标翻译成结构化的计划语言。我们使用 GPT 3.5 变种进行了实验，结果表明大型语言模型更适合进行翻译而不是规划，虽然这些模型能够利用常识知识和推理填补自然语言目标中缺失的细节，但在涉及到数字或物理推理的任务中，它们可能会出现失败，并且对所使用的提示信息很敏感。

Feb, 2023

LLM 驱动的机器人存在歧视、暴力和非法行为风险

人机交互 (HRI) 和人工智能 (AI) 社区提出了大型语言模型（LLMs）作为机器人任务的一个有前景的资源，然而最近的研究引发了对 LLMs 在真实世界机器人实验和应用中产生歧视性结果和不安全行为的担忧。为了解决这些问题，我们在几个高评级的 LLMs 上进行了基于 HRI 的歧视和安全评估，发现它们在遇到具有多样性的受保护身份特征（例如种族、性别、残疾状况、国籍、宗教和交叉特征）的人时，产生了与直接歧视结果一致的偏见输出；此外，我们在自由语言输入环境中测试模型，发现它们不能安全行动，生成的回应接受有危险、暴力或非法指令，例如引发事故的错误陈述、夺取人们的移动辅助设备和性侵行为。我们的结果强调了迫切需要系统、常规和全面的风险评估和保证，以改善结果，并确保 LLMs 只在安全、有效和公正的情况下在机器人上运行。数据和代码将提供。

Jun, 2024