- CHAI: 集群化头部注意力用于高效的 LLM 推断
基于大型语言模型的多头注意力机制的高冗余性,提出了一种新的聚类头自注意力机制 (CHAI),能够在运行时显著降低模型的存储和计算需求,从而减少内存需求 21.4% 和推理时间延迟最多 1.73 倍。
- SubGen: 子线时间和内存中的令牌生成
本研究提出一种用于大型语言模型的有效压缩技术,通过在关键标记上进行在线聚类和在值上进行在线 l2 采样,实现了亚线性内存占用和亚线性时间复杂度,从而显著提高了性能和效率。
- X-PEFT:面向极端多个配置的极其参数高效微调
引入 X-PEFT,一种新的参数高效微调方法,通过微调极小的紧凑张量,作为二进制掩码来自适应地选择给定适配器,从而解决适配器数量线性增加的问题,相较于传统的适配器微调,在每个配置文件的内存需求减少了 10000 倍,而在 LaMP 和 GL - 量子模拟随机过程中的准确性与内存优势
在研究中,我们探讨了经典和量子模拟器之间的直接映射,以及量子模型在准确性和存储需求之间的权衡,证明了量子模型可以以更小内存达到相同准确性,或者以相同内存实现更好的准确性,并讨论了该结果对学习任务的影响。
- 生物计量学的理论极限
生物测量学在识别准确性方面表现出了其能力。本文提出了一种理论分析方法来解决生物识别系统的可区分性问题,并展示了人口规模与避免冲突所需的独立位数之间的简单关系。研究结果令人鼓舞,因为整个地球人口的生物测量数据可以储存在一个普通硬盘上,还留有一 - AdaLomo:自适应学习率的低内存优化
大型语言模型通常需要较大的内存来训练,但低内存优化(LOMO)技术通过引入自适应学习率以及矩阵分解等方法,降低了内存需求并与 AdamW 优化器在大语言模型上表现相当。
- EMNLP对抗多头:利用注意力头嵌入实现高效参数的多头注意力
我们提出了一种使用单个共享投影矩阵和多个头嵌入(MHE)的替代模块,实验证明我们的 MHE 关注机制在多个下游任务上显著提高了内存效率,并且相对于 MHA 仅需要可忽略的附加参数。
- 基于神经抽象的控制器综合和部署
我们提出了一种利用神经网络表示以减少抽象技术的高内存需求的方法,通过校正神经网络的输出来保持整个过程的正确性,并通过提供一个新的训练算法来减少合成控制器的内存需求。
- Rockmate:基于 PyTorch 的高效、快速、自动化和通用重现工具
Rockmate 是一个自动化工具,从模型代码开始生成一个等效的模型,使用预定义数量的内存来控制 PyTorch DNN 模型训练时的内存需求。
- CVPRFusedRF:多辐射场融合
本文介绍基于 Radiance Fields 的方法,用于将多个场景的 RF 合成为单个压缩的 RF 表示形式,提高 XR 应用的渲染效率。
- 使用精确压缩学习图神经网络
本文研究采用精确压缩的方式,将图神经网络(GNNs)学习问题转化为等价的压缩 GNNs 学习问题,以减少在大型图上学习 GNNs 时 GPU 等内存有限设备的存储需求,实验表明可以在现实世界的图上获得可观的压缩比。
- 高效扩展 Transformer 推理
该研究旨在提高 Transformers 模型的生成推理效率,并通过多维分区技术、低级优化等策略获得较佳的推理效率和 FLOPS 利用率权衡,从而支持 Token 的大批量处理和长文本生成。
- 核分离转置卷积操作
本研究提出了一种基于核激活值的算法级优化技术,将原始内核分成四个子内核,从而降低了内存需求和不必要的乘法运算,提高了转置卷积层的计算效率。实验结果显示,采用所提出的优化方法比传统实现快 $2.2$ 倍。
- ICML完全可逆的双向特征金字塔网络
RevSilo 是第一个用于双向多尺度特征融合的可逆模块,可通过可逆重计算来减少存储隐藏激活所需的内存,借助堆叠的 RevSilos,创建了一个完全可逆的双向特征金字塔网络 RevBiFPN,它在分类方面与 EfficientNet 等网络 - CVPR简单即是美:通过预训练骨干网络实现即插即用的迭代学习
通过利用预训练模型的能力,我们提出了一个基于基线(即拿来即用)的解决方案,以持续学习计算机视觉问题,并设计了一种简单的方法,在大多数常见基准测试中实现强大性能。
- ECCV深度本地描述符的学习与聚合在实例级别的识别中的应用
该篇论文提出了一种用于实例级别识别的高效学习本地描述符的方法,它使用度量学习来训练深度神经网络,通过内部组件的激活传递局部描述符。与现有本地描述符相比,在两个实例级别识别任务中提供更好的性能和更低的存储器需求,这证明了全局描述符在大规模情况 - 在线卷积字典学习
本文研究了针对卷积字典学习的在线学习方法,解决了传统批量算法在处理大规模训练数据时所需的较高内存要求的问题。
- 内存受限的深度卷积神经网络
本研究探讨了在卷积神经网络的训练过程中使用稀疏性正则化的方法。我们的实验结果表明,使用这种正则化方法可以大幅减少神经网络所需的存储和计算开销,并且不会显著降低准确性。
- 差分和非差分隐私的随机决策树
本文研究了带有随机决策树的监督学习,分析和比较了三种不同的算法,并提出了差分隐私版本的所有三种方案。通过数学证明了正确分类大部分数据所需的独立随机决策树的数量,并给出了泛化误差的上限。最终得出了大多数投票和阈值平均是过程中精度最高的方法,并