介绍了一种新的度量模型推理效率的 metric 理想运行时间(idealized runtime),对自回归 Transformer 模型进行了高效的估计。使用这些方法,作者对十种最先进的 LLM 进行了比较,并提出了多项结论,包括一些 API 的推理效率超过其他模型的原因是由于 API 中的优化措施而不是所使用的模型本身。
May, 2023
介绍了深度学习效率问题和五个核心领域,包括建模技术、基础设施和硬件,并提出实验指南和代码,为实践者优化模型培训和部署提供支持。这是第一个详尽的调查,涵盖了从建模技术到硬件支持的模型效率领域,帮助实践者实现改进并装备他们以进行进一步的研究和实验。
Jun, 2021
通过对各种代码库的推理性能进行粗细的分析,本研究提供了研究人员评估代码库和改进推理策略的宝贵综合结果。
Apr, 2024
本文探究了人工智能资源感知和可持续性的问题,强调评估和报告能源效率取舍的重要性,研究发现不同的数据集都有自己的效率取舍,方法可以更或 weniger 地表现得高效。
Apr, 2023
通过引入一个复合分数来衡量精确度和功耗在神经网络推断过程中的权衡,本文提出了一个新的开源工具,使研究人员能够考虑更多的指标,包括细粒度的功耗、RAM/CPU/GPU 利用率,以及存储和网络的输入 / 输出。该方法被用于探索神经网络的能耗和精确度之间的折衷,同时也有助于对比两种架构,以更准确地适配硬件和进行架构探索。
Oct, 2023
本文对文本分类任务进行了量化分析,以分类准确性为主要指标,评估了各种模型的性能,包括大型语言模型及其相关成本,包括注释成本、训练成本和推理成本,并讨论了在需要大量推断样本的情况下的模型选择。其目的是为了帮助人们更好地理解文本分类任务的成本 / 质量权衡。
Jan, 2023
本研究针对查找性能在用户面向场景下的部署需求,提出搜索引擎评估方法应包括准确率和效率,如查询延迟和对硬件环境的成本预算,以及结构评估方法应考虑到查找延迟、硬件成本等效率因素,为广义 IR 评价提供更全面的参考。
Dec, 2022
本文提供了一种新颖的量化指标框架,用于解释分类器和回归模型的预测结果,旨在提高人工智能系统的透明度和可信度。应用公开数据集,展示了这些指标如何更全面地理解模型预测,并在决策者和利益相关者之间促进更好的沟通,从而增加人工智能系统的整体透明度和问责度。
Feb, 2023
大规模语言模型的有效推理需要克服模型规模大、注意力操作复杂度高、自回归解码等问题,本文对提高大规模语言模型推理效率的现有技术文献进行了综述,介绍了数据层、模型层和系统层优化的方法,并通过实验进行了定量分析,最后总结了相关知识,并探讨了未来研究方向。
本文介绍了多类分类中的一些性能评估指标,旨在帮助开发人员比较不同分类模型或机器学习技术的性能,以及调整不同参数来分析同一模型的行为。
Aug, 2020