AgentSims:用于大型语言模型评估的开放源码沙盒
大型语言模型在互动环境中以多轮开放式生成的方式评估 LLMs 作为代理的推理和决策能力,显示出商业 LLMs 和开源竞争对手之间的性能差距。
Aug, 2023
本文探索了一种方法,即在特定的游戏场景中测试大型语言模型的表现,以此来深入了解它们是否能像环境理解代理一样进行操作,涵盖了五个交互设置,并表明当前聊天优化的大型语言模型在一定程度上能够遵循游戏规则,并且用于衡量游戏表现和调查 LLM 的性能具有诊断价值。
May, 2023
大型语言模型(LLMs)能够理解人类指令并生成高质量的文本,使它们能够模拟人类行为并超越简单的复制。本研究介绍了可定制的对话代理框架,利用 LLMs 模拟真实世界中可以根据用户偏好自由定制的角色。提出了 SimsConv 数据集和 SimsChat 对话代理,模拟不同情景下角色的生活经历和特定情感的专题交互。实验证明该框架取得了令人满意的性能,并为未来构建更好的人类模拟提供了有益的指导。
Jun, 2024
为了推动自动化任务导向对话系统的评估,本研究提出了一种基于预训练语言模型的新型用户模拟器,并通过上下文学习来生成具有鲁棒性和语言多样性的输出,以模拟人类对话行为。通过与现有对话系统交互,并收集人机交互数据集,验证了该用户模拟器在单一意图对话目标方面的表现与人类相似。
Sep, 2023
我们提出了一种基于 LLM 的研究代理的研究,该代理可以在机器学习工程问题中执行实验循环,并且我们开发了 MLAgentBench 来评估这些代理的性能与效率。
Oct, 2023
使用大型语言模型构建的用户搜索行为模拟器在查询生成方面优于现有方法,并在预测用户点击和停止行为方面可与传统方法媲美。这些结果不仅验证了使用大型语言模型进行用户模拟的有效性,还为更强大和通用的用户模拟器的开发提供了启示。
Mar, 2024
在这篇论文中,我们提出了 CityBench 作为第一个用于评估大规模语言模型在城市领域能力的系统性评估基准,通过构建 CitySim 来整合多源数据并模拟细粒度的城市动态,设计了 7 个任务用于评估 LLMs 作为城市规模世界模型在感知理解和决策制定方面的能力,在 13 个城市的 13 个知名 LLMs 上进行了广泛实验,结果表明 CityBench 的可扩展性和效果,并对未来城市领域 LLMs 的发展提供了启示。
Jun, 2024
这项研究介绍了一个专门用于评估大型语言模型在多主体环境中能力的基准测试框架,通过游戏和博弈论场景来创建不同的测试环境,并利用概率图模型方法增强模型的导航能力,最终量化评估了七种不同大型语言模型的能力,发现最强模型 GPT-4 和最弱模型 Llama-2-70B 之间存在三倍的能力差距,同时证实了概率图模型增强了所有模型的能力,平均提高了 50%。
Nov, 2023
通过使用语言模型生成丰富的仿真环境和专家演示,在模拟数据上进行多任务策略训练,极大地增强了任务级泛化能力,并实现了对未见过的现实任务的强大转移能力。
Oct, 2023
大型语言模型可以在复杂环境中模拟人类行为,在竞争环境中展示了高级推理技能,需要评估环境来探测战略推理、竞争动态场景中的长期规划,介绍了 AucArena 作为一个评估 LLMs 的新型模拟环境,在竞拍中证明了通过简单的提示,LLMs 确实展示了参与竞拍所需的许多技能,还发现对 LLM 代理进行自适应和观察过去竞拍策略的明确鼓励,可以提高这些技能的准确性,这些结果表明使用 LLM 代理模拟复杂社交动态的潜力,尤其在竞争环境中,但我们也观察到个体 LLMs 的能力存在相当大的变异性,值得注意的是,即使是最先进的模型(GPT-4)有时也会被启发式基准线和人类代理超越,这突显了 LLM 代理设计中进一步提高和我们的模拟环境在测试和改进代理体系结构中的重要作用。
Oct, 2023