推理过程中不需要所有 LLM 层
通过删除和交换相邻层,我们展示并研究了大型语言模型的显著健壮性,并发现删除和交换方法可以在不进行微调的情况下保留原始模型预测准确性的 72-95%,而具有更多层的模型表现出更强的健壮性。基于逐层干预和进一步实验的结果,我们假设了跨 8 个不同模型的四个普遍推理阶段的存在,即去标记化,特征工程,预测集成和残余调整。第一个阶段将局部信息融合,将原始令牌表示提升为更高级别的上下文表示。接下来是任务和实体特定特征的迭代改进。然后,模型的后半部分开始时进行相位转变,由于专用模型组件,隐藏表示与词汇空间更加一致。最后,最后一层通过消除向预测添加噪音的过时特征来调整后续令牌分布。
Jun, 2024
大规模语言模型的有效推理需要克服模型规模大、注意力操作复杂度高、自回归解码等问题,本文对提高大规模语言模型推理效率的现有技术文献进行了综述,介绍了数据层、模型层和系统层优化的方法,并通过实验进行了定量分析,最后总结了相关知识,并探讨了未来研究方向。
Apr, 2024
通过跳过 Transformer LLMs 中后面的 attention 子层,可以有效地对大型语言模型进行压缩,提升性能并降低计算成本。在 Llama 2 7B 上观察到 21% 的生成速度提升,并出乎意料地改善了在多个常见基准测试中的性能。
Apr, 2024
本文对大型语言模型在逻辑推理方面进行了全面评估,提出了一种基于选择和推理的框架,可以在不进行微调的情况下改进性能,并伴随着因果自然语言推理过程的答案。
May, 2022
大型语言模型(LLMs)的计算和能源资源利用的推理性能进行了基准测试和初步分析,分析了不同规模的 LLMa 在两代热门 GPU(NVIDIA V100 和 A100)以及两个数据集(Alpaca 和 GSM8K)上的推理性能与推理能源成本。
Oct, 2023
ChatGPT 的引入使得大型语言模型(LLM)被广泛应用于解决后续任务,而在此背景下,低成本的 LLM 培训和部署代表着未来的发展趋势。本文回顾了与这一新兴趋势相一致的大型语言模型培训技术和推理部署技术的演变。在培训方面,讨论了数据预处理、培训架构、预训练任务、并行培训以及与模型微调相关的内容。在推理方面,本文涵盖了模型压缩、并行计算、内存调度和结构优化等主题。它还探讨了 LLM 的利用并提供了对其未来发展的见解。
Jan, 2024
本研究提出了一种有效的、高效的两阶段方法来增强大型语言模型中的上下文学习,该方法利用 Transformer 注意力和梯度下降优化之间的双重形式,将上下文学习过程分为 'Thinking' 和推理阶段,通过递归前向优化演示来增强 LLLs 的推理能力,并且将得到的元梯度通过注意力应用于最终的输出预测中,从而有效地、高效地适应下游任务。
May, 2023
通过对热门的开放式权重预训练 LLMs 进行实证研究,我们发现在移除大部分(最多一半)层之前,其在不同的问答基准测试中仅出现轻微性能下降;因此,层剪枝方法可以在减少计算资源的同时提高推理的内存和延迟,并暗示当前的预训练方法未充分利用网络较深层的参数,或者浅层起到了关键的存储知识的作用。
Mar, 2024