Oct, 2023

SOTOPIA: 语言代理社交智能的交互评估

TL;DR通过在SOTOPIA环境中对人工智能系统进行角色扮演与互动,对其社交智能进行评估,我们发现在SOTOPIA-hard场景下,GPT-4比人类表现更差,难以展示社交常识推理和战略沟通技巧,这显示了SOTOPIA作为评估和提升人工智能社交智能的通用平台的潜力。