BriefGPT.xyz
Ask
alpha
关键词
benchmark dataset leakage
搜索结果 - 1
大型语言模型中基准测试的基准泄露
利用简单且可扩展的 Perplexity 和 N-gram 精度两个度量指标来检测潜在数据泄漏,揭示了大规模语言模型在数学推理领域存在的数据误用问题,并提出了关于模型文档、基准设置和未来评估的几点建议,其中包括提出 “基准透明卡” 以促进透
→
PDF
2 months ago
Prev
Next