SOTOPIA-$π$: 社交智能语言代理的交互学习

Mar, 2024

SOTOPIA-$π$: 社交智能语言代理的交互学习

SOTOPIA-$π$: Interactive Learning of Socially Intelligent Language Agents

Ruiyi Wang, Haofei Yu, Wenxin Zhang, Zhengyang Qi, Maarten Sap...

TL;DR通过行为克隆和自我强化训练，我们提出了交互学习方法 SOTOPIA-π，进一步提高语言代理的社交智能。我们展示了该训练方法使得一个 7B LLM 达到了专家模型（基于 GPT-4 的代理）的社交目标完成能力，同时提高了语言代理的安全性并在 MMLU 基准测试中保持了通用问答能力。我们还发现这种训练范式揭示了 LLM-based 评估社交智能的一些困难：LLM-based 评估者高估了专门用于社交互动训练的语言代理的能力。

Abstract

Humans learn social skills through both imitation and social interaction. This social learning process is largely understudied by existing research on building language agents. Motivated by this gap, we propose a

social learning language agents interactive learning behavior cloning social intelligence

发现论文，激发创造

SOTOPIA: 语言代理社交智能的交互评估

通过在 SOTOPIA 环境中对人工智能系统进行角色扮演与互动，对其社交智能进行评估，我们发现在 SOTOPIA-hard 场景下，GPT-4 比人类表现更差，难以展示社交常识推理和战略沟通技巧，这显示了 SOTOPIA 作为评估和提升人工智能社交智能的通用平台的潜力。

Oct, 2023

SocialAI 0.1：向深度强化学习智能体的社会认知能力研究提供基准

本文讨论了构建具有社交交互能力的具体化自主智能体是人工智能面临的主要挑战之一，并指出了目前在具体化语言使用方面的研究方向存在的局限性。作者认为，实现人类水平的人工智能需要更广泛的关键社交技能。最后，通过实验研究了一种近期最先进的深度强化学习方法的局限性。

Apr, 2021

SPL: 由大型语言模型驱动的苏格拉底学习场

通过基于 GPT-4 模型的苏格拉底学习法的对话式智能辅导系统（SPL），我们的研究展示了大型语言模型如何增强基于对话的智能辅导系统，并扩展了教育技术的可访问性和效力。

Jun, 2024

监督与自我对弈在新兴通讯中的相互作用

本研究探讨了一种新的教授人工智能代理人使用自然语言的方法，发现在通过受监督的学习奖励和自我对弈的信号两种方式的训练后比直接从头开始进行自我学习效果更好，并提出了一种基于人群的方法以进一步提高表现。

Feb, 2020

语言引导的多任务机器人操作的对比模仿学习

本文介绍了一种多任务机器人操纵的逐字逐句学习方法，该方法通过自然语言指令和视觉观察实现在复杂真实环境中执行各种操纵任务的机器人代理。

Jun, 2024

MobileAgent: 通过人机交互和标准操作程序集成增强移动控制

利用大型语言模型中心的代理机构，通过个性化学习和在线高级用户指令执行，实现自动化移动设备操作，同时解决隐私问题和复杂任务执行挑战。

Jan, 2024

面向可伸缩性的儿童自闭症干预的机器人介入优化

我们提出了一种社交机器人，可以与自闭症谱系障碍（ASD）的儿童进行口头交流，以教授利用大型语言模型（LLM）生成的文本进行透视能力培养。该社交机器人 NAO 充当了一个刺激器（描述一种社交情境并提问）、提示器（提供三个选项供选择）和强化器（当回答正确时表扬）。我们比较了两种方法：GPT-2 + BART 和 GPT-2 + GPT-2，其中第一个 GPT-2 在两个流程中用于无监督社交情境生成。我们使用 SOCIALIQA 数据集对所有 LLM 流程进行了微调。我们发现 GPT-2 + BART 流程在生成问题和选项时具有更好的 BERTscore，通过组合它们的各自损失函数进行评估，这个发现也得到了人工评估的验证。最后，我们使用 T-SNE 图可视化了无监督生成的社交情境，并由人类专家评估了整个流程对 ASD 儿童的适应性。

Feb, 2024

通过会话游戏进行一次性视觉概念学习实现交互式语言获取

本文提出一种集成模仿学习和强化学习的方法，通过交互式对话游戏实现基于场景的语言学习，使得智能代理能够主动提问新事物并在一次对话中将新知识应用于实践。实验结果证实了该方法的有效性。

Apr, 2018

在二维环境中的交互式基于语境的语言习得和推理

基于 2D 迷宫世界，通过虚拟代理学习语言的模型，将语言的生成与理解与其他计算流程分离，从而成功地解决新单词出现的问题。模型可以解释人类可理解的中间输出结果，大幅优于其他五种比较方法。

Jan, 2018

面向个性化学生模拟的智能对话辅导系统

构建学生群体的个人资料以及使用大型语言模型进行具有个性化意识的学生模拟

Apr, 2024