E-Bench: 大型语言模型易用性评估

Jun, 2024

E-Bench: Towards Evaluating the Ease-of-Use of Large Language Models

Zhenyu Zhang, Bingguang Hao, Jinpeng Li, Zekai Zhang, Dongyan Zhao

TL;DR通过系统分析大型语言模型（LLMs）抵抗提示扰动的稳定性，本研究构建 E-Bench 模拟真实人类使用情况，并讨论了同义扰动和排版扰动的组合以及性能下降的主要原因，实验证明即便随着模型规模的增加，易用性显著提升，但仍需努力建立足够用户友好的模型。

Abstract

Most large language models (LLMs) are sensitive to prompts, and another synonymous expression or a typo may lead to unexpected results for the model. Composing an optimal prompt for a specific demand lacks theore

large language models prompts prompt perturbations e-bench ease-of-use

发现论文，激发创造

在教育和评估应用中探索提示式大型语言模型的能力

利用大语言模型在现代教育领域创新的机会，通过研究提问型大语言模型、语法错误解释和人力资源面试评估，揭示了大语言模型在改变教育实践中的潜力和限制。

May, 2024

情绪刺激：通过心理学为大型语言模型提升增强

大语言模型通过 EmotionPrompt 在情绪智能方面进行性能提升，取得了显著的成果，有助于人类与语言模型的跨学科知识交互。

Jul, 2023

生成人工智能时代下的大型语言模型评估标准的不足

通过以人、过程和技术为视角，功能性和安全性为支柱，使用我们的统一评估框架，对 23 个最先进的 LLM 基准进行了研究，发现了显著的限制，并强调了在人工智能进步的背景下，标准化方法、监管确定性和伦理指南的迫切需求，以及通过协作努力发展被广泛接受的基准和增强人工智能系统融入社会的重要性。

Feb, 2024

PromptBench：评估大型语言模型对对抗性提示的鲁棒性

本研究使用 adversarial prompts 对 Large Language Models 进行度量，并分析了 prompt 鲁棒性及其传递性，为 prompt 组合提供了实用性建议。

Jun, 2023

对话模型的节约提示

研究了使用大型语言模型建立对话系统的不同方法，并分析了对话历史的表示方式，提出了一种更紧凑的提供对话历史信息的方法，从而有效减少模型 API 的成本。

May, 2023

EvalLM: 大型语言模型提示的交互式评估及用户定义准则

通过评估多个用户定义的标准，使用自然语言描述系统的评估器提供的反馈，从而使开发人员能够通过迭代改进引导语。与手动评估相比，EvalLM 有助于参与者构建更多样化的标准，检查两倍数量的输出，并在减少 59% 的修订次数后获得令人满意的引导语。该研究可扩展到模型评估和特定应用环境中的对齐。

Sep, 2023

大型语言模型的自动提示选择

自动选择给定输入的最佳提示，克服手动设计有效提示的挑战，通过聚类训练数据、生成候选提示、生成输入 - 提示 - 输出数据集以训练评估器，并使用评估器在测试时选择最佳提示来实现兼顾通用性和特异性的方法。在零 - shot 问答数据集上显示出竞争性性能。

Apr, 2024

量化语言模型对触发设计中伪特征的敏感性，或：我如何开始担忧触发格式

大语言模型的关键因素在于提示设计对其性能会产生巨大影响，通过许多方面的分析研究，我们发现几种常用开源大语言模型对微妙的提示格式变化具有极高的敏感性，这种敏感性在不断增加模型大小、样本数量或进行指令调整时仍然存在。

Oct, 2023

当下现状？对多指令语言模型评估的呼吁

通过综合分析来自 3 个评估基准的 39 项任务、20 种不同的大型语言模型和 650 万个实例的单提示评估结果的脆弱性，我们提出使用一套多样的提示来评估大型语言模型，为特定的使用场景（例如 LLM 开发人员与对特定下游任务感兴趣的开发人员）设计定制化的评估指标，从而增强对当前大型语言模型真实优势和限制的准确可靠的评估。同时，我们实施了这些标准并对多个模型进行了评估，为当前大型语言模型的真正优势和限制提供了深入的见解。

Dec, 2023

PromptBench: 一个用于评估大型语言模型的统一库

评估大规模语言模型（LLMs）的关键是评估其性能并减轻潜在的安全风险。本文介绍了 PromptBench，一个用于评估 LLMs 的统一库，包括关键组件：提示构建、提示工程、数据集和模型加载、对抗性提示攻击、动态评估协议和分析工具。PromptBench 旨在成为一个开放、通用和灵活的代码库，用于研究目的，可以促进在创建新的基准、部署下游应用程序和设计新的评估协议方面的原始研究。代码可在此 URL 处获得并将获得持续支持。

Dec, 2023