Jul, 2024

PersonaGym:评估人物代理和大型语言模型

TL;DR本研究解决了评价人物代理性能的复杂问题,提出了PersonaGym,一个用于评估人物代理的动态评价框架,以及基于决策理论的首个自动化人类对齐指标PersonaScore。研究表明,尽管模型更为先进,比如Claude 3.5 Sonnet相较于GPT 3.5的PersonaScore仅提高了2.97%,这强调了在算法和架构创新方面的迫切需求,以提升人物代理的能力。