May, 2024

语言模型可复现评估的实践经验

TL;DR在 NLP 中,评估语言模型的有效性仍然是一个开放性挑战。本文通过三年的经验总结提供了对评估语言模型的指导和教训,并介绍了用于独立、可重现和可扩展评估语言模型的开源库。