Jun, 2024

PaCoST:大型语言模型中用于基准污染检测的配对置信度显著性测试

TL;DR针对大型语言模型的基准污染问题,本研究提出了一种可靠的污染检测方法 PaCoST,并验证了其有效性。实验发现几乎所有测试的模型和基准数据都存在不同程度的污染,因此呼吁发展新的语言模型评估方法。