Nov, 2023
不要让您的 LLM 成为一个评估基准作弊者
Don't Make Your LLM an Evaluation Benchmark Cheater
Kun Zhou, Yutao Zhu, Zhipeng Chen, Wentong Chen, Wayne Xin Zhao...
TL;DR大型语言模型的评估常常会受到不适当使用评估基准和误导性解读评估结果等问题的影响。本研究通过大量实验发现,评估基准泄漏会极大地提高评估结果,从而导致对模型性能的不可靠评估。最后,为大型语言模型的开发者和基准维护者提出了一些建议。