Dec, 2023
我们离可信的 AI 代理有多远?评估人类行为模拟可信度的框架
How Far Are We from Believable AI Agents? A Framework for Evaluating the Believability of Human Behavior Simulation
Yang Xiao, Yi Cheng, Jinlan Fu, Jiashuo Wang, Wenjie Li...
TL;DR利用大型语言模型(LLM)增强人工智能代理的人类行为模拟,通过引入两个度量标准(一致性和鲁棒性)以及基准 SimulateBench 评估常用 LLM 实现的代理的一致性和鲁棒性,发现代理在处理复杂输入和受到关键因素影响时存在困难,容易受到干扰。