Nov, 2023
现代大语言模型中数据污染问题研究
Investigating Data Contamination in Modern Benchmarks for Large Language Models
Chunyuan Deng, Yilun Zhao, Xiangru Tang, Mark Gerstein, Arman Cohan
TL;DR我们通过检测数据污染并提出 “Testset Slot Guessing” 方法,发现商业化的 LLM 在评估基准中有明显的性能改进,并呼吁在该领域使用更强大的评估方法和基准。