RoTBench: 评估大型语言模型在工具学习中的鲁棒性的多层级基准测试

Jan, 2024

RoTBench: 评估大型语言模型在工具学习中的鲁棒性的多层级基准测试

RoTBench: A Multi-Level Benchmark for Evaluating the Robustness of Large Language Models in Tool Learning

Junjie Ye, Yilong Wu, Songyang Gao, Sixian Li, Guanyu Li...

TL;DR介绍了 RoTBench，用于评估工具学习中 LLMs 的鲁棒性的多级基准。通过在五个不同级别的噪声环境下进行实验，揭示了现有模型在工具选择、参数识别和内容填充三个关键阶段中的弹性问题。为了增强 LLMs 在工具学习中的鲁棒性，提出了 RoTTuning 策略。

Abstract

tool learning has generated widespread interest as a vital means of interaction between Large Language Models (llms) and the physical world. Current research predominantly emphasizes →

tool learning llms robustness external environments rottuning

发现论文，激发创造

RUPBench：基于干扰的推理鲁棒性评估大型语言模型的基准测试

通过对大型语言模型（LLMs）进行系统的鲁棒性评估，本研究提供了关于 LLMs 对多样化和噪声输入的处理能力方面的进一步改进的见解。

Jun, 2024

StableToolBench: 朝着大规模稳定的工具学习基准测试迈进

通过结合外部工具，将大型语言模型与实施工具学习，以应对不同的现实挑战，获得显著进展。鉴于此，为了评估大型语言模型利用工具的能力，需要进行大规模且稳定的基准测试。因此，本研究提出了 StableToolBench，作为 ToolBench 的演进版本，引入了虚拟 API 服务器和稳定的评估系统，通过缓存系统与 API 模拟器相辅相成，稳定 API 服务器状态，同时采用 GPT-4 作为自动评估器，设计了可解决的通过率和胜利率，消除了评估过程中的随机性。实验结果验证了 StableToolBench 的稳定性，并进一步讨论了 API 模拟器、缓存系统和评估系统的有效性。

Mar, 2024

大型语言模型对词级扰动真的具有强健性吗？

利用预训练的奖励模型作为诊断工具，我们提出了一种用于评估大规模语言模型的稳健性的新方法，称为奖励模型合理鲁棒性评估（TREvaL）。经过广泛的实证实验，我们发现 TREvaL 在评估大规模语言模型的稳健性方面提供了一种准确的方法，尤其是在面对更具挑战性的开放性问题时。此外，我们的结果表明，大规模语言模型经常表现出对词级扰动的脆弱性，而这种扰动在日常语言使用中很普遍。令人惊讶的是，我们发现随着进一步的微调（SFT 和 RLHF）进行，模型的鲁棒性往往会降低。

Sep, 2023

UBENCH：使用多项选择题对大型语言模型中的不确定性进行基准测试

针对大型语言模型（LLMs）的可解释性低，现有的评估系统主要考察问题解决能力而忽视了响应的不确定性，为此提出了 UBENCH，一个全面评估 LLM 可靠性的基准，包括了 3,978 个多项选择题，实验结果表明 UBENCH 取得了最先进的性能，同时与需要多次采样的基准方法相比，其单次采样方法显著节省了计算资源。此外，基于 UBENCH，我们评估了 15 个热门的 LLM 的可靠性，发现 GLM4 和 GPT-4 表现突出。我们还探讨了 Chain-of-Thought 提示、角色扮演提示、选项顺序和温度对 LLM 可靠性的影响，并分析了对不同 LLM 的不同效果。

Jun, 2024

CogBench：一个大型语言模型进入心理学实验室

大型语言模型在人工智能领域取得了显著进展，然而它们的综合评估仍具挑战性。本研究引入了 CogBench 评估工具，包含七项认知心理学实验中衍生出的十项行为度量指标，并运用这一工具对 35 个大型语言模型进行了分析。研究结果突出了模型规模和人类反馈的强化学习在性能提升和与人类行为的一致性方面的关键作用。此外，本研究还探讨了提示工程技术的影响，发现链式思路提示能够改善概率推理，而退一步思考提示则促进了基于模型的行为。

Feb, 2024

TaskBench: 用于任务自动化的大型语言模型基准测试

最近，大型语言模型的不断进展引发了任务自动化的火花，其将用户指令描述的复杂任务分解为子任务，并调用外部工具执行它们，在自主代理中起着核心作用。然而，缺乏一个系统的和标准化的基准来促进 LLM 在任务自动化中的发展。为此，我们引入了 TaskBench 来评估 LLM 在任务自动化中的能力。具体而言，任务自动化可以分为三个关键阶段：任务分解，工具调用和参数预测以实现用户意图。这种复杂性使得数据收集和评估与常见的自然语言处理任务相比更具挑战性。为了生成高质量的评估数据集，我们引入了工具图的概念来表示用户意图中的分解任务，并采用反指导方法来模拟用户指令和注释。此外，我们提出了 TaskEval 来从任务分解、工具调用和参数预测等不同方面评估 LLM 的能力。实验结果表明，TaskBench 能够有效地反映 LLM 在任务自动化中的能力。借助自动化数据构建和人工验证的综合，TaskBench 相对于人工评估具有高一致性，可以作为 LLM-based 自主代理的全面而可靠的基准。

Nov, 2023

机器翻译模型是否在不被察觉的情况下变得更加健壮了？

通过对多语种机器翻译模型和大型语言模型在噪声输入情境下的实验研究，我们发现这些模型相比以往模型对各种噪声更加稳健，尤其是在处理干净数据情况下表现相似的情况下。我们还展示了这种趋势在社交媒体翻译实验中同样存在，同时分析了源文本校正技术在减轻噪声影响方面的应用情况。综上所述，我们展示了对于多种类型噪声的稳健性有所增强。

Mar, 2024

DevBench：软件开发综合基准

最近的大型语言模型 (LLMs) 的进展显著增强了它们的编码能力。然而，现有的基准主要关注编程的简化或隔离方面，如单文件代码生成或存储库问题调试，无法全面衡量真实世界编程活动引发的各种挑战。为此，我们提出了 DevBench，这是一个全面的基准，评估 LLMs 在软件开发生命周期的各个阶段，包括软件设计、环境设置、实施、验收测试和单元测试。DevBench 涵盖了广泛的编程语言和领域，具备高质量的数据收集，并为每个任务设计和验证了仔细设计的指标。经验证实证研究表明，包括 GPT-4-Turbo 在内的当前 LLMs 未能解决 DevBench 中提出的挑战。分析显示，模型在理解存储库中的复杂结构、管理编译过程和掌握高级编程概念方面存在困难。我们的发现为未来 LLMs 的真实世界编程应用的发展提供了可行的洞察。我们的基准可以在此 https URL 获取。

Mar, 2024

大规模多语言神经机器翻译的鲁棒性实证研究

我们通过实证研究了印度尼西亚 - 汉语翻译在不同噪声环境下的翻译稳健性，并创建了一个用于评估翻译稳健性的基准数据集。

May, 2024

计划、创建、使用：实际复杂场景中综合工具利用的 LLM 基准测试

通过 UltraTool，我们提供了一个新的基准来改进和评估大型语言模型在实际场景中利用工具的能力，重点关注从规划、创建到应用工具的整个过程，并强调了真实世界的复杂性，需要准确的多步规划来解决问题，从而为这个快速发展的领域提供了新的见解。

Jan, 2024