评估和验证 LLM 驱动的应用中的任务效用
介绍了一种新的框架 AgentEval,用于验证大型语言模型(LLM)驱动应用程序的实用性,并提供一套与特定应用程序目标相符的评估标准,以全面评估其实用性。
Feb, 2024
基于大型语言模型的评估框架 ALI-Agent 可以自动化生成实际测试场景,评估模型与人类价值观的一致性,并探测出长尾风险。
May, 2024
通过多轮讨论辅助的 ScaleEval 元评估框架,充分利用多个交流能力的大语言模型代理进行可伸缩元评估,帮助人工标注员判断最有能力的大语言模型作为评估者,从而显著减轻他们的工作量。
Jan, 2024
大型语言模型在互动环境中以多轮开放式生成的方式评估 LLMs 作为代理的推理和决策能力,显示出商业 LLMs 和开源竞争对手之间的性能差距。
Aug, 2023
通过多代理辩论框架,构建了一个名为 ChatEval 的多代理裁判团队,用于自主讨论和评估不同模型在开放性问题和传统自然语言生成任务中生成响应的质量,分析结果表明 ChatEval 不仅仅提供文本评分,还提供了模拟人类评估过程以进行可靠评估。
Aug, 2023
大语言模型(LLMs)的评估方法是研究这些模型的重要组成部分,这篇综述介绍了评估 LLMs 的方法和维度,并总结了 LLMs 在不同任务中的成功案例、失败案例和未来挑战。
Jul, 2023
通过讨论 LLMs 的核心能力、评估方法以及应用领域,我们提出了一个两阶段的框架来有效评估 LLMs 的能力,并考察了当前评估方法所面临的挑战和未来发展方向。
Jun, 2024
提出了一个针对家庭服务实体代理的任务规划性能自动量化基准系统,对大型语言模型和提示进行了广泛实验,并探索了基线任务规划器的多个改进,预计该基准工具将加快语言导向的任务规划器的发展。
Feb, 2024
最近,大型语言模型的不断进展引发了任务自动化的火花,其将用户指令描述的复杂任务分解为子任务,并调用外部工具执行它们,在自主代理中起着核心作用。然而,缺乏一个系统的和标准化的基准来促进 LLM 在任务自动化中的发展。为此,我们引入了 TaskBench 来评估 LLM 在任务自动化中的能力。具体而言,任务自动化可以分为三个关键阶段:任务分解,工具调用和参数预测以实现用户意图。这种复杂性使得数据收集和评估与常见的自然语言处理任务相比更具挑战性。为了生成高质量的评估数据集,我们引入了工具图的概念来表示用户意图中的分解任务,并采用反指导方法来模拟用户指令和注释。此外,我们提出了 TaskEval 来从任务分解、工具调用和参数预测等不同方面评估 LLM 的能力。实验结果表明,TaskBench 能够有效地反映 LLM 在任务自动化中的能力。借助自动化数据构建和人工验证的综合,TaskBench 相对于人工评估具有高一致性,可以作为 LLM-based 自主代理的全面而可靠的基准。
Nov, 2023