我们离可信的 AI 代理有多远？评估人类行为模拟可信度的框架

Dec, 2023

我们离可信的 AI 代理有多远？评估人类行为模拟可信度的框架

How Far Are We from Believable AI Agents? A Framework for Evaluating the Believability of Human Behavior Simulation

Yang Xiao, Yi Cheng, Jinlan Fu, Jiashuo Wang, Wenjie Li...

TL;DR利用大型语言模型（LLM）增强人工智能代理的人类行为模拟，通过引入两个度量标准（一致性和鲁棒性）以及基准 SimulateBench 评估常用 LLM 实现的代理的一致性和鲁棒性，发现代理在处理复杂输入和受到关键因素影响时存在困难，容易受到干扰。

Abstract

human behavior simulation of ai agents necessitates the agents to possess a quality of believability, which is crucial as it facilitates u

human behavior simulation ai agents believability large language model simulatebench

发现论文，激发创造

大型语言模型能模拟人类的信任行为吗？

大型语言模型（LLM）代理程序作为模拟人类行为的应用工具已经得到越来越广泛的应用，本文关注于研究 LLM 代理程序能否真正模拟人类的信任行为，通过对 LLM 代理程序在信任博弈框架下的行为模式以及与人类的行为一致性的研究，探究了代理程序对信任的偏好和对人类与代理程序之间的信任差异，并对信任在不同场景下的重要性提出了重要启示，从而推动了对 LLM 代理程序与人类之间行为类比的理解。

Feb, 2024

基于大型语言模型的特征化人工智能代理

大语言模型在构建特色人工智能代理方面的性能评估以及自动度量指标的定量评估，突显了进一步提高大语言模型在构建特色人工智能代理方面能力的潜在方向。

Mar, 2024

ALI-Agent: 基于代理评估法评估 LLMs 与人类价值观的一致性

基于大型语言模型的评估框架 ALI-Agent 可以自动化生成实际测试场景，评估模型与人类价值观的一致性，并探测出长尾风险。

May, 2024

超越人口统计学：利用人类信念网络对饰演角色的基于 LLM 的代理进行对齐

通过整合从实证人类信念网络中提取的信息，本研究评估了如何改进基于人类行为的大型语言模型（LLM）与人类行为的一致性，结果表明在模拟和理解社会信念分布模式的工作中，将 LLM 代理与单一信念进行关联会显著提高对相关主题的一致性。

Jun, 2024

AgentBench: 评估语言模型为代理人

大型语言模型在互动环境中以多轮开放式生成的方式评估 LLMs 作为代理的推理和决策能力，显示出商业 LLMs 和开源竞争对手之间的性能差距。

Aug, 2023

USimAgent: 用于模拟搜索用户的大型语言模型

使用大型语言模型构建的用户搜索行为模拟器在查询生成方面优于现有方法，并在预测用户点击和停止行为方面可与传统方法媲美。这些结果不仅验证了使用大型语言模型进行用户模拟的有效性，还为更强大和通用的用户模拟器的开发提供了启示。

Mar, 2024

基于协作生成代理的 LLM 任务导向协调中人类行为互动模拟

应用大型语言模型（LLMs）在各种任务和社会模拟中取得了显著进展，但它们在任务导向的社会背景中的协调能力尚未得到充分探索。为了弥合这一差距，我们引入了协作生成代理，为基于 LLMs 的代理赋予一致的行为模式和解决任务的能力。我们将这些代理置于一个模拟的招聘会环境中进行案例研究，以审查它们的协调能力。我们提出了一个新颖的框架，赋予协作生成代理人类般的推理能力和专业技能。我们的评估结果表明，这些代理显示出有希望的性能。然而，我们也发现了限制，阻碍了它们在更复杂的协调任务中的效果。我们的工作对于 LLMs 在任务导向的社会模拟中的作用和发展提供了有价值的见解。

Oct, 2023

基于 LLM 的模仿次理性行为：幻觉还是现实？

利用大型语言模型生成合成的人类示范，然后通过模仿学习学习非理性主体策略，以此来模拟人类特征性的非理性行为，通过实验评估了该框架的模拟非理性行为的能力，并得出结论和讨论框架的潜在收益、挑战和限制。

Feb, 2024

生成人工智能时代下的大型语言模型评估标准的不足

通过以人、过程和技术为视角，功能性和安全性为支柱，使用我们的统一评估框架，对 23 个最先进的 LLM 基准进行了研究，发现了显著的限制，并强调了在人工智能进步的背景下，标准化方法、监管确定性和伦理指南的迫切需求，以及通过协作努力发展被广泛接受的基准和增强人工智能系统融入社会的重要性。

Feb, 2024

LLM 辅助的基于 Agent 的社会模拟建模：挑战与机遇

大规模语言模型与基于代理的仿真的整合对于理解复杂社会系统具有变革潜力，本文探讨了系统开发 LLM 增强的社会仿真的架构和方法，并讨论了该领域的潜在研究方向。结论表明，将 LLM 与基于代理的仿真相结合为研究人员和科学家提供了强大的工具集，能够生成更细致、逼真和全面的复杂系统和人类行为模型。

May, 2024