Apr, 2024

LLM 聊天机器人的模仿能力如何?通过 ECHO 评估

TL;DR使用 ECHO 框架基于图灵测试评估三种角色扮演型大型语言模型(LLMs),结果发现 GPT-4 在欺骗人类评估者方面更为有效,并且 GPTs 实现了 48.3% 的领先成功率。