Aug, 2024

评估大型语言模型中的污染:引入LogProber方法

TL;DR本研究针对大型语言模型(LLMs)评估中的污染问题,提出了一种新颖的LogProber方法,以便有效检测训练集中的测试数据泄露。该方法利用给定句子的token概率识别污染,并探讨了不同训练方法如何在不留下痕迹的情况下污染模型的局限性。这一贡献为公平评估LLMs的性能演变提供了重要工具。