May, 2023

自回归 Transformer API 推理效率度量的廉价评估

TL;DR介绍了一种新的度量模型推理效率的 metric 理想运行时间(idealized runtime),对自回归 Transformer 模型进行了高效的估计。使用这些方法,作者对十种最先进的 LLM 进行了比较,并提出了多项结论,包括一些 API 的推理效率超过其他模型的原因是由于 API 中的优化措施而不是所使用的模型本身。