BriefGPT.xyz
Ask
alpha
关键词
confidence significance testing
搜索结果 - 1
PaCoST:大型语言模型中用于基准污染检测的配对置信度显著性测试
针对大型语言模型的基准污染问题,本研究提出了一种可靠的污染检测方法 PaCoST,并验证了其有效性。实验发现几乎所有测试的模型和基准数据都存在不同程度的污染,因此呼吁发展新的语言模型评估方法。
PDF
14 days ago
Prev
Next