RoTBench: 评估大型语言模型在工具学习中的鲁棒性的多层级基准测试
通过对大型语言模型(LLMs)进行系统的鲁棒性评估,本研究提供了关于 LLMs 对多样化和噪声输入的处理能力方面的进一步改进的见解。
Jun, 2024
通过结合外部工具,将大型语言模型与实施工具学习,以应对不同的现实挑战,获得显著进展。鉴于此,为了评估大型语言模型利用工具的能力,需要进行大规模且稳定的基准测试。因此,本研究提出了 StableToolBench,作为 ToolBench 的演进版本,引入了虚拟 API 服务器和稳定的评估系统,通过缓存系统与 API 模拟器相辅相成,稳定 API 服务器状态,同时采用 GPT-4 作为自动评估器,设计了可解决的通过率和胜利率,消除了评估过程中的随机性。实验结果验证了 StableToolBench 的稳定性,并进一步讨论了 API 模拟器、缓存系统和评估系统的有效性。
Mar, 2024
利用预训练的奖励模型作为诊断工具,我们提出了一种用于评估大规模语言模型的稳健性的新方法,称为奖励模型合理鲁棒性评估(TREvaL)。经过广泛的实证实验,我们发现 TREvaL 在评估大规模语言模型的稳健性方面提供了一种准确的方法,尤其是在面对更具挑战性的开放性问题时。此外,我们的结果表明,大规模语言模型经常表现出对词级扰动的脆弱性,而这种扰动在日常语言使用中很普遍。令人惊讶的是,我们发现随着进一步的微调(SFT 和 RLHF)进行,模型的鲁棒性往往会降低。
Sep, 2023
针对大型语言模型(LLMs)的可解释性低,现有的评估系统主要考察问题解决能力而忽视了响应的不确定性,为此提出了 UBENCH,一个全面评估 LLM 可靠性的基准,包括了 3,978 个多项选择题,实验结果表明 UBENCH 取得了最先进的性能,同时与需要多次采样的基准方法相比,其单次采样方法显著节省了计算资源。此外,基于 UBENCH,我们评估了 15 个热门的 LLM 的可靠性,发现 GLM4 和 GPT-4 表现突出。我们还探讨了 Chain-of-Thought 提示、角色扮演提示、选项顺序和温度对 LLM 可靠性的影响,并分析了对不同 LLM 的不同效果。
Jun, 2024
大型语言模型在人工智能领域取得了显著进展,然而它们的综合评估仍具挑战性。本研究引入了 CogBench 评估工具,包含七项认知心理学实验中衍生出的十项行为度量指标,并运用这一工具对 35 个大型语言模型进行了分析。研究结果突出了模型规模和人类反馈的强化学习在性能提升和与人类行为的一致性方面的关键作用。此外,本研究还探讨了提示工程技术的影响,发现链式思路提示能够改善概率推理,而退一步思考提示则促进了基于模型的行为。
Feb, 2024
最近,大型语言模型的不断进展引发了任务自动化的火花,其将用户指令描述的复杂任务分解为子任务,并调用外部工具执行它们,在自主代理中起着核心作用。然而,缺乏一个系统的和标准化的基准来促进 LLM 在任务自动化中的发展。为此,我们引入了 TaskBench 来评估 LLM 在任务自动化中的能力。具体而言,任务自动化可以分为三个关键阶段:任务分解,工具调用和参数预测以实现用户意图。这种复杂性使得数据收集和评估与常见的自然语言处理任务相比更具挑战性。为了生成高质量的评估数据集,我们引入了工具图的概念来表示用户意图中的分解任务,并采用反指导方法来模拟用户指令和注释。此外,我们提出了 TaskEval 来从任务分解、工具调用和参数预测等不同方面评估 LLM 的能力。实验结果表明,TaskBench 能够有效地反映 LLM 在任务自动化中的能力。借助自动化数据构建和人工验证的综合,TaskBench 相对于人工评估具有高一致性,可以作为 LLM-based 自主代理的全面而可靠的基准。
Nov, 2023
通过对多语种机器翻译模型和大型语言模型在噪声输入情境下的实验研究,我们发现这些模型相比以往模型对各种噪声更加稳健,尤其是在处理干净数据情况下表现相似的情况下。我们还展示了这种趋势在社交媒体翻译实验中同样存在,同时分析了源文本校正技术在减轻噪声影响方面的应用情况。综上所述,我们展示了对于多种类型噪声的稳健性有所增强。
Mar, 2024
最近的大型语言模型 (LLMs) 的进展显著增强了它们的编码能力。然而,现有的基准主要关注编程的简化或隔离方面,如单文件代码生成或存储库问题调试,无法全面衡量真实世界编程活动引发的各种挑战。为此,我们提出了 DevBench,这是一个全面的基准,评估 LLMs 在软件开发生命周期的各个阶段,包括软件设计、环境设置、实施、验收测试和单元测试。DevBench 涵盖了广泛的编程语言和领域,具备高质量的数据收集,并为每个任务设计和验证了仔细设计的指标。经验证实证研究表明,包括 GPT-4-Turbo 在内的当前 LLMs 未能解决 DevBench 中提出的挑战。分析显示,模型在理解存储库中的复杂结构、管理编译过程和掌握高级编程概念方面存在困难。我们的发现为未来 LLMs 的真实世界编程应用的发展提供了可行的洞察。我们的基准可以在此 https URL 获取。
Mar, 2024
通过 UltraTool,我们提供了一个新的基准来改进和评估大型语言模型在实际场景中利用工具的能力,重点关注从规划、创建到应用工具的整个过程,并强调了真实世界的复杂性,需要准确的多步规划来解决问题,从而为这个快速发展的领域提供了新的见解。
Jan, 2024