图像识别的简单缓存模型
提出了一种新的方法,只计算和缓存少量层的键值以大幅节省内存消耗并提高推理吞吐量。在大型语言模型上的实验证明,该方法的推理吞吐量比标准 Transformer 高 26 倍,同时在语言建模和下游任务中具有竞争性能。此外,该方法与现有的 Transformer 节省内存技术正交,因此可以轻松将它们与我们的模型集成,进一步提高推理效率。
May, 2024
本文提出一种扩展神经网络语言模型以适应最近历史的方法,将过去的隐藏活性作为记忆保存,并通过与当前隐藏激活的点积来访问它们,此机制非常高效,能够扩展至非常大的存储空间。同时,作者指出了神经网络外部存储与基于计数的语言模型中缓存模型之间的联系,并在几个语言模型数据集上证明了他们的方法比最近的记忆增强网络性能显着优越。
Dec, 2016
通过缓存中间层输出,可以避免运行所有 DNN 层,从而减少预测延迟,本文介绍了 Freeze Inference 系统,它通过在每个中间层引入逼近缓存,并讨论如何减小缓存大小和提高缓存命中率,未来的挑战也被提出。
Feb, 2020
本文通过使用外部高容量存储器存储图像特征映射、标签和原始图像的知识,而不是显式存储在模型参数中,来避免增量学习中的灾难性遗忘,并引入 k - 最近邻分类器对其进行分析,实现了在不微调模型参数的前提下,ImageNet 数据集上的 79.8%的 top-1 准确度,以及 Split CIFAR-100 数据集中 90.8%的增量学习准确度。
Apr, 2022
提出了一种扩展连续缓存模型的方法,通过使用大规模的非参数内存组件,存储过去观察到的所有隐藏激活,并利用近似最近邻搜索和量化算法,高效地存储和搜索数百万的表示,显著提高了预训练语言模型在新分布上的困惑度,并且可以有效地扩展到比以前提出的本地缓存模型更大的上下文范围。
Nov, 2017
DeepCache 是一种基于时间局部性的缓存设计,能提高深度学习推理的效率且适用于移动端应用,能平衡缓存能力、资源开销和模型精度损失等问题,并在实验中展现了一定的推理时间和系统能耗的优化。
Dec, 2017
本文介绍了一种结构化记忆,它可以轻松地集成到神经网络中,并基于产品键的设计和访问模式,使用快速准确的最近邻搜索来显着增加架构的容量。这种记忆层可用于处理非常大规模的语言建模任务,并可以提高模型预测准确性并在训练和测试时间内保持计算效率。我们将其插入基于 Transformer 的体系结构的代码中,实验结果表明,仅有 12 层的记忆增强模型优于具有 24 层的基线 Transformer 模型,并且在推理时间上快两倍。
Jul, 2019
研究使用检索增强模型来提高计算机视觉任务的识别能力,引入了一种基于注意力机制的记忆模块,学习从外部记忆集合中检索出的每个例子的重要性,证明了使用 10 亿个图像 - 文本对的大规模记忆数据集的好处,并在 ImageNet-LT,Places-LT 和 Webvision 数据集中取得了最先进的准确性。
Apr, 2023