Jul, 2023

效率十项全能:效率评估的标准竞技场

TL;DR现代自然语言处理(NLP)系统的计算需求增加了最前沿研究的门槛,同时引发了严重的环境问题。然而,在模型效率方面取得进展却受到了模型评估和比较中的实际挑战的阻碍。为了应对这一问题,本文介绍了 Pentathlon,一个用于模型效率全面和现实评估的基准测试。Pentathlon 主要关注推理,并提供一个严格控制的硬件平台,旨在模拟真实的应用场景。它结合了一套针对效率不同方面的度量标准,包括延迟、吞吐量、内存开销和能源消耗。Pentathlon 还提供一个软件库,可以无缝集成到任何代码库中,用于评估。作为一个标准化和集中化的评估平台,Pentathlon 可以大大减轻工作量,实现公平且可重现的效率比较。尽管最初专注于自然语言处理(NLP)模型,Pentathlon 的设计允许灵活扩展到其他领域。我们预计 Pentathlon 将促进建立高效模型的算法创新,并增加对未来 NLP 模型发展中的社会和环境影响的关注。