迈向更好的人机协作:评估 LLM 驱动应用中的任务效用
基于大型语言模型的评估框架 ALI-Agent 可以自动化生成实际测试场景,评估模型与人类价值观的一致性,并探测出长尾风险。
May, 2024
大型语言模型在互动环境中以多轮开放式生成的方式评估 LLMs 作为代理的推理和决策能力,显示出商业 LLMs 和开源竞争对手之间的性能差距。
Aug, 2023
利用强大的分析、规划和决策能力,以及四个代理的协作,我们提出了一种 TrainerAgent 系统,它由任务、数据、模型和服务器代理组成,通过综合地从数据和模型的角度对用户定义的任务、输入数据和需求进行优化,从而获得满足要求的模型,并将这些模型作为在线服务部署,相较于传统模型开发,我们的系统以增加效率和质量的方式取得了显著进展。
Nov, 2023
通过多代理辩论框架,构建了一个名为 ChatEval 的多代理裁判团队,用于自主讨论和评估不同模型在开放性问题和传统自然语言生成任务中生成响应的质量,分析结果表明 ChatEval 不仅仅提供文本评分,还提供了模拟人类评估过程以进行可靠评估。
Aug, 2023
大型语言模型(LLMs)正在改变人工智能,使得自主代理能够在不同领域执行多样化任务。这些代理具备类似人类的文本理解和生成能力,有望在从客户服务到医疗保健等各个领域引发革命。然而,它们面临着诸如多模态、人类价值取向、幻觉和评估等挑战。推动、推理、工具利用和上下文学习等技术正在被探索,以增强它们的功能。像 AgentBench、WebArena 和 ToolLLM 这样的评估平台为在复杂场景中评估这些代理提供了强大的方法。这些进展正在引领更加有韧性和能力的自主代理的发展,预计它们将成为我们数字生活中不可或缺的一部分,协助我们完成从邮件回复到疾病诊断等任务。拥有 LLMs 带头的人工智能的未来充满了希望。
Apr, 2024
通过多轮讨论辅助的 ScaleEval 元评估框架,充分利用多个交流能力的大语言模型代理进行可伸缩元评估,帮助人工标注员判断最有能力的大语言模型作为评估者,从而显著减轻他们的工作量。
Jan, 2024
应用大型语言模型(LLMs)在各种任务和社会模拟中取得了显著进展,但它们在任务导向的社会背景中的协调能力尚未得到充分探索。为了弥合这一差距,我们引入了协作生成代理,为基于 LLMs 的代理赋予一致的行为模式和解决任务的能力。我们将这些代理置于一个模拟的招聘会环境中进行案例研究,以审查它们的协调能力。我们提出了一个新颖的框架,赋予协作生成代理人类般的推理能力和专业技能。我们的评估结果表明,这些代理显示出有希望的性能。然而,我们也发现了限制,阻碍了它们在更复杂的协调任务中的效果。我们的工作对于 LLMs 在任务导向的社会模拟中的作用和发展提供了有价值的见解。
Oct, 2023
聊天机器人的评估是一个重要问题,本研究介绍了一种综合评估机制,该机制结合了人类评估和基于 LLM 的评估,并通过实验证明基于因子的评估在 LLM 应用中提供更好的洞察力,进一步加强了在主要功能不是直接检索的关键空间中使用人类评估的论点。
Jun, 2024