- 自回归搜索引擎:生成子字符串作为文档标识符
提出利用自回归模型生成和打分 n 元组,并通过高效的数据结构将其映射到完整段落的检索方案,相较于其他检索方案具有更好的性能表现和更小的内存占用。
- ICLRF8Net: 仅限定点 8 位乘法用于网络量化
F8Net 是一种完全由固定点 8 位乘法构成的量化框架,可以降低神经网络量化模型与完全精度模型之间的性能差距,并显著降低内存占用和能源消耗。
- Few-Bit Backward: 激活函数的量化梯度用于减少内存占用
本篇论文研究了神经网络训练中的内存占用问题,在点乘非线性函数导数的逼近上采用动态规划算法等方法进行量化,以显著减少内存占用和保证相同的收敛性能。
- ICLR基于块状量化的 8 位优化器
本文开发了首个使用 8 位统计量进行训练的优化器,采用了分块动态量化进行加速,同时结合了非线性优化和嵌入层技术以提高精度和稳定性,并在一系列任务中展现了较高的性能和较小的内存占用。
- ICLR重新审视本地监督学习:一种替代端到端训练的方法
本文介绍了一种利用信息传播 (loss) 解决深度网络训练时存储中间激活值(activations)的大内存占用问题的算法,该算法将网络划分为局部模块,通过异步训练这些分离的局部模块,并且通过信息传播 (loss) 损失函数,逐层改进算法提 - 开放域问答的高效内存基线
本文研究了基于密集表示的检索系统如何减少内存占用,并提出了三个方法:降维、量化和过滤。在 TriviaQA 和 NaturalQuestions 数据集上进行评估后,发现使用不到 6GB 的内存就能获得可以与竞品相媲美的系统。
- ICLR自回归实体检索
GENRE 是第一个通过自回归方式逐个 token 生成实体名称以检索实体的系统,此方法可以在自动编码器中直接捕捉上下文和实体名称之间的关系,从而减少内存占用并提高检索效率。
- IJCAI变形金刚模型全面实现 8 位整型推断
通过对 Transformer 模型进行整合,得到了一个 8 位整型 Inference 算法,其鲁棒的 8 位量化方法大大减少了内存占用问题。实验结果表明,与基准架构相比,该算法的性能基本一致且内存占用减少了近 4 倍。
- EMNLP掩蔽:预训练语言模型的有效替代方法
本文提出了一种有效的预训练语言模型利用方法,其中利用二进制选择性蒙版来代替微调的方法对预训练权重进行修改。对 Bert 和 Roberta 模型进行掩模和微调的广泛评估表明,我们的掩模方案在执行多个任务时具有可比性的性能,却具有更小的内存占 - 通过特征适应实现内存高效的渐进式学习
本文提出了一种增量学习的方法,该方法保留以前学习类别的训练图像的特征描述符,而不是图像本身,采用了比大多数现有方法更少的低维特征嵌入,通过多层感知器学习特征适应以实现分类器旧类别和新类别的联合优化,并取得了与保留图像相比更低的内存占用和最先 - 用于深度神经网络低精度训练的平移和压缩 8 位浮点格式
本研究提出了一种新的方法 (S2FP8) ,使用 8 位浮点(FP8)数来训练深度神经网络,可以在训练时实现更大的有效内存和增加计算速度,并且在 ResNet-50、Transformer 和 NCF 等模型中表现良好,无需微调损失缩放参数 - 使用 Count-Min Sketch 在对数内存中进行的极端分类:以亚马逊搜索 50M 产品为例
本文提出了一种名为 MACH 的算法,用于处理极端分类问题,并在 6 个数据集上进行了测试,表明 MACH 优于目前市场上使用的分类模型,能够降低内存占用,加快训练速度。
- ACL学习压缩句子表示,用于设备端文本处理
本文提出了四种连续和通用句子嵌入二值化方法,并评估了它们在多种下游任务中的表现,发现二值化句子嵌入相对于连续嵌入仅降低了约 2%的性能,同时减少了 98%的存储需求,而学习到的二进制表示形式可以通过简单计算其汉明距离来评估两个句子之间的语义 - 一种部分可逆的 U-Net 用于内存高效的体积图像分割
在 3D 卷积神经网络分割方面,一种部分可逆的 U-Net 架构通过减小内存消耗实现了深度增强并提高了分割准确性,在 BraTS 挑战数据集上展示出了很大的内存节省。
- 做更少,得更多:带子采样的流式子模最大化
该论文提出了首个一次遍历的流算法,用于求解子模最大化问题,采用数据采样,能够在各种情况下获得最紧密的逼近保证,同时具有最小的内存占用和对函数评估数量的最低要求,试验表明该算法在进行大规模机器学习问题的子模最大化时能够将其表现提高 50 倍以 - 非所有的 Ops 都是平等的!
本研究指出评估神经网络架构效率的典型指标 -- 操作总数和参数总数 -- 并不足够准确,还需要考虑吞吐量和能量消耗等实际部署指标,同时需要将激活数据所需的内存也纳入考虑。实证结果表明,在标准微控制器上,不同神经网络操作类型的吞吐量和能量消耗 - 自动驾驶快速场景理解
本文提出一种基于 ENet 的实时高效实现,可以同时解决语义场景分割、实例分割和单目深度估计三个自动驾驶相关任务,不会因同时运行多个任务而牺牲准确性。
- ProjectionNet: 使用神经投影学习高效的设备端深度神经网络
引入一种新的紧凑型神经网络结构,该结构使用联合优化框架进行训练,包括一个全训练神经网络和一个利用随机投影进行输入或中间表示转换的简单的 “投影” 网络。使用全网络来指导投影网络的训练。经过训练的小型网络可以用于低内存和计算成本的推理,并且在 - Cnvlutin2:无效激活和权重自由的深度神经网络计算
本文讨论了 Cnvlutin 加速器在深度学习网络中卷积和全连接层方面的多个修改和扩展,包括编码的改变、读取内存时的识别与跳过无效激活值以及无效权重。
- CVPR使用宽度减少精度网络进行训练和推断
本研究旨在通过使用一种新的量化方案来缩减激活函数,从而提高计算机视觉应用的性能。我们发现这种方案可以在不降低模型精度的情况下,大大降低动态内存占用、内存带宽、计算能量并加速训练和推理过程。我们称其为宽面减少精度网络,研究表明其结果优于以前提