Feb, 2024

一致性至关重要:从黑盒角度探索 LLMs 的一致性

TL;DR我们通过构建 LLM 一致性任务数据集和设计多个基准模型,使用传统的自然语言生成度量标准(即 ROUGE,BLEU,METEOR)作为模型训练所需的特征,在主要实验中超越了人工评估、GPT3.5 以及其他模型,取得了最佳性能,最终利用最佳表现的 LightGBM 模型构建了评估工具,可以有效地帮助业务模型的部署。