Mar, 2024

SOTOPIA-$π$: 社交智能语言代理的交互学习

TL;DR通过行为克隆和自我强化训练,我们提出了交互学习方法 SOTOPIA-π,进一步提高语言代理的社交智能。我们展示了该训练方法使得一个 7B LLM 达到了专家模型(基于 GPT-4 的代理)的社交目标完成能力,同时提高了语言代理的安全性并在 MMLU 基准测试中保持了通用问答能力。我们还发现这种训练范式揭示了 LLM-based 评估社交智能的一些困难:LLM-based 评估者高估了专门用于社交互动训练的语言代理的能力。