Dec, 2023

METAL: 大型语言模型质量分析的变形测试框架

TL;DR大型语言模型(LLMs)已经改变了自然语言数据处理的范式。我们提出了一个名为 METAL 的框架,用于通过应用变异测试技术对 LLM 的质量进行系统测试,并引入了新的度量方法来准确评估 Metamorphic Relations(MRs)的有效性,从而有效评估了主要 LLM 任务的关键质量属性并揭示了 LLM 中的质量风险。