Feb, 2025

PredictaBoard:大型语言模型得分可预测性的基准测试

TL;DR本研究针对大型语言模型(LLM)在常识推理任务中表现不稳定的问题,提出了一种新的基准测试框架PredictaBoard,用于评估得分类别(称为评估者)对LLM错误的预测能力。研究表明,PredictaBoard不仅关注模型的平均性能,还强调了在安全部署AI系统时评估可预测性的重要性,为降低风险与提高可靠性提供了新的方向。