τ-bench：一种真实世界领域中工具 - 代理人 - 用户交互的基准

Jun, 2024

τ-bench：一种真实世界领域中工具 - 代理人 - 用户交互的基准

$τ$-bench: A Benchmark for Tool-Agent-User Interaction in Real-World Domains

Shunyu Yao, Noah Shinn, Pedram Razavi, Karthik Narasimhan

TL;DR现有的基准测试无法测试语言代理与人类用户的交互或遵循特定领域规则的能力，我们提出了 $ au$-bench，这是一个基准测试，模拟了语言模型模拟的用户与具备特定领域 API 工具和策略指南的语言代理之间的动态对话。我们采用了高效且忠实的评估过程，将对话结束时的数据库状态与带注释的目标状态进行比较。我们还提出了一种新的度量指标（pass^k），用于评估代理行为在多次试验中的可靠性。我们的实验证明，即使是最先进的函数调用代理（如 gpt-4o）在 < 50% 的任务上也能成功，并且不够一致（在零售领域，pass^8<25%）。我们的研究结果指出了需要提出方法来改善代理的行为一致性和可靠性。

Abstract

Existing benchmarks do not test language agents on their interaction with human users or ability to follow domain-specific rules, both of which are vital for deploying them in real world applications. We propose

benchmark language agents domain-specific rules evaluation process reliability

发现论文，激发创造

LoTa-Bench: 为具有体现性代理的面向语言任务规划器进行基准测试

提出了一个针对家庭服务实体代理的任务规划性能自动量化基准系统，对大型语言模型和提示进行了广泛实验，并探索了基线任务规划器的多个改进，预计该基准工具将加快语言导向的任务规划器的发展。

Feb, 2024

ShortcutsBench：一个基于 API 的代理的大规模现实世界基准测试

该研究论文介绍了一个名为 ShortcutsBench 的大规模基准测试，用于评估基于 API 的代理程序在解决具有不同难度级别、任务类型和真实需求的任务中的性能。通过使用 5 个主流开源的以及 4 个闭源的大型语言模型进行实验，发现基于 API 的代理程序在处理与 API 选择、参数填充以及系统和用户请求必要信息相关的复杂查询时存在显著的局限性。

Jun, 2024

Tur [k] ingBench: 网页代理挑战基准

通过实验模拟了多模式预训练对网络页面的理解能力，在基准测试中发现了现有模型的优势和不足，并希望该基准测试能促进网络代理的评估和发展。

Mar, 2024

TURINGBENCH: 面向神经文本生成时代的图灵测试基准环境

该研究提出了 TuringBench 基准环境，旨在解决神经文本生成方法的 “图灵测试” 问题，它包括 200K 个人工或机器生成的样本数据集，分别涵盖 20 个标签，以及两个基准测试任务和网站排行榜，研究初步实验表明，FAIR_wmt20 和 GPT-3 是生成最逼近人类无法辨别的文本的最佳选择。

Sep, 2021

TimeArena: 塑造高效多任务语言智能体的时间感知模拟

通过引入 TimeArena，我们在当前模拟环境中更好地反映了复杂的时间动态和约束，揭示了大型语言模型在有效多任务处理方面仍然落后于人类，并强调了在语言代理开发中提高时间意识的需求。

Feb, 2024

TaskBench: 用于任务自动化的大型语言模型基准测试

最近，大型语言模型的不断进展引发了任务自动化的火花，其将用户指令描述的复杂任务分解为子任务，并调用外部工具执行它们，在自主代理中起着核心作用。然而，缺乏一个系统的和标准化的基准来促进 LLM 在任务自动化中的发展。为此，我们引入了 TaskBench 来评估 LLM 在任务自动化中的能力。具体而言，任务自动化可以分为三个关键阶段：任务分解，工具调用和参数预测以实现用户意图。这种复杂性使得数据收集和评估与常见的自然语言处理任务相比更具挑战性。为了生成高质量的评估数据集，我们引入了工具图的概念来表示用户意图中的分解任务，并采用反指导方法来模拟用户指令和注释。此外，我们提出了 TaskEval 来从任务分解、工具调用和参数预测等不同方面评估 LLM 的能力。实验结果表明，TaskBench 能够有效地反映 LLM 在任务自动化中的能力。借助自动化数据构建和人工验证的综合，TaskBench 相对于人工评估具有高一致性，可以作为 LLM-based 自主代理的全面而可靠的基准。

Nov, 2023

任务驱动的具有体感的对话智能体（TEACh）

引入 TEACh 数据集，通过三个基准测试，研究基于人类空间的机器人必须能够与人进行自然语言交互，理解和执行指令，使用会话来解决模糊性并从错误中恢复的具体挑战。

Oct, 2021

旅行规划：一项针对与语言代理实际商用计划的基准测试

语言代理的规划能力在复杂环境下仍然面临挑战，但旅行规划问题提供了一个有意义又具有挑战性的测试平台。

Feb, 2024

StableToolBench: 朝着大规模稳定的工具学习基准测试迈进

通过结合外部工具，将大型语言模型与实施工具学习，以应对不同的现实挑战，获得显著进展。鉴于此，为了评估大型语言模型利用工具的能力，需要进行大规模且稳定的基准测试。因此，本研究提出了 StableToolBench，作为 ToolBench 的演进版本，引入了虚拟 API 服务器和稳定的评估系统，通过缓存系统与 API 模拟器相辅相成，稳定 API 服务器状态，同时采用 GPT-4 作为自动评估器，设计了可解决的通过率和胜利率，消除了评估过程中的随机性。实验结果验证了 StableToolBench 的稳定性，并进一步讨论了 API 模拟器、缓存系统和评估系统的有效性。

Mar, 2024

TPTU-v2：在现实世界系统中增强基于大型语言模型的代理人的任务规划与工具使用

该论文介绍了一个综合框架，旨在增强基于大型语言模型的代理在实际系统中的任务规划和工具使用能力，通过 API 检索器选择相关 API、LLM 精调器调整基础 LLM 以增强规划和 API 调用能力、以及演示选择器用于区分难以辨别的 API 并进行上下文学习，验证结果显示每个组件及整合框架的有效性。

Nov, 2023