Dec, 2023

我们离可信的 AI 代理有多远?评估人类行为模拟可信度的框架

TL;DR利用大型语言模型(LLM)增强人工智能代理的人类行为模拟,通过引入两个度量标准(一致性和鲁棒性)以及基准 SimulateBench 评估常用 LLM 实现的代理的一致性和鲁棒性,发现代理在处理复杂输入和受到关键因素影响时存在困难,容易受到干扰。