May, 2024
语言模型可复现评估的实践经验
Lessons from the Trenches on Reproducible Evaluation of Language Models
Stella Biderman, Hailey Schoelkopf, Lintang Sutawika, Leo Gao, Jonathan Tow...
TL;DR在 NLP 中,评估语言模型的有效性仍然是一个开放性挑战。本文通过三年的经验总结提供了对评估语言模型的指导和教训,并介绍了用于独立、可重现和可扩展评估语言模型的开源库。