Dec, 2023

PromptBench: 一个用于评估大型语言模型的统一库

TL;DR评估大规模语言模型(LLMs)的关键是评估其性能并减轻潜在的安全风险。本文介绍了 PromptBench,一个用于评估 LLMs 的统一库,包括关键组件:提示构建、提示工程、数据集和模型加载、对抗性提示攻击、动态评估协议和分析工具。PromptBench 旨在成为一个开放、通用和灵活的代码库,用于研究目的,可以促进在创建新的基准、部署下游应用程序和设计新的评估协议方面的原始研究。代码可在此 URL 处获得并将获得持续支持。