- 面向事件相机的基于流的视觉流压缩
该研究引入了一种基于流的方法,用于实时异步压缩事件流数据的生成,通过利用实时光流估计来预测未来事件,从而显著减少数据传输量,并展示了该方法在不同数据集上实现了平均 2.81 的压缩比,与 LZMA 压缩结合使用可以实现 10.45 到 17 - 拆解标记化:评估文本压缩及其与模型性能的相关性
通过变化训练数据的数量,我们研究了 BPE tokenizers 的压缩能力对预训练语言模型下游性能的影响,我们发现压缩能力与模型性能存在相关性,因此构建压缩效果更好的 tokenizer 是一个有前景的研究方向。
- 深度强化学习的最优策略稀疏化和低秩分解
使用 $L_0$- 范数正则化技术稀疏化深度强化学习策略,通过低秩分解提供压缩效果,以减少计算资源消耗和限制过拟合。
- 深度神经网络的 “无损” 压缩:一种高维度神经切向核方法
建立在神经切向核 (NTK) 和随机矩阵理论 (RMT) 的最新进展之上,我们提供了一种创新的压缩方法用于宽且全连接的深度神经网络,实现 “无损” 压缩,即压缩后的网络在渐近意义下与原始网络具有相同的 NTK,权重和激活只取值于 {0, ± - T3DNet: 用于轻量级三维识别的压缩点云模型
本文提出了一种名为 T3DNet 的方法,通过辅助监督和网络增强,将 3D 点云模型进行压缩,实现高压缩比率而保持较高的准确性。
- SPC-NeRF:基于体素辐射场空间预测压缩
该论文提出了一种新颖的框架 SPC-NeRF,应用空间预测编码在显式体素网格(EVG)压缩中,以实现更好的压缩性能和 32%的比特节省。
- PaCKD: 模式聚类知识蒸馏用于压缩内存访问预测模型
使用模式聚类知识蒸馏方法,我们提出了 PaCKD,这是一种压缩内存访问预测模型的方法,通过为每个分区训练大型模式特定的教师模型,然后从这些训练好的模式特定教师中提取知识训练一个单一轻量级的学生模型,以在保持预测性能的同时实现模型大小的 55 - 稀疏子空间变分推断训练贝叶斯神经网络
稀疏子空间变分推理(SSVI)是一种全稀疏贝叶斯神经网络(BNN)框架,它通过从随机初始化的低维稀疏子空间开始,交替优化稀疏子空间基选择和相关参数,实现了在训练和推理阶段一致高稀疏性的 BNN 模型。
- 大型语言模型的模型压缩与高效推理:调研
这篇论文研究了大型语言模型的压缩和高效推理方法,介绍了分类为量化、修剪、蒸馏、紧凑架构设计和动态网络的压缩和加速算法,并提出了中型模型和真正大型模型的区分。此外,还介绍了一些用于大型模型高效推理的成熟框架,可以支持基本的压缩或加速算法,极大 - BiLLM: 提高 LLM 后训练量化的极限
BiLLM 是一种创新的 1 位后训练量化方案,定制了预训练的大型语言模型,实现了仅使用 1.08 位权重在各种 LLM 家族和评估指标上实现高准确度的推理,超过了 LLM 的 SOTA 量化方法。此外,BiLLM 能够在单个 GPU 上在 - 高效动态 NeRF 基于体积视频编码与速率失真优化
提出了一种基于动态 NeRF 的体积视频压缩方法,通过将 NeRF 表示分解为系数场和基准场并在时间域内增量更新基准场来实现动态建模,同时进行端到端联合优化以进一步提高压缩效率。大量实验证明,与 ReRF 相比,我们的方法在各种数据集上实现 - SLIC:一种利用结构和颜色的学习型图像编解码器
通过基于结构和颜色的学习图像编解码器(SLIC),将压缩任务分割为亮度和色度,构建具有新颖的多尺度架构的深度学习模型,通过将不同阶段的特征结合以获取潜在表示。通过各种实验研究和分析,与其他图像编解码器进行比较,通过通道脉冲响应、潜在通道和各 - 事件驱动视频的开放软件套件
这篇论文介绍了 ADΔER 软件套件,它是一个集成了各种软件组件的框架,用于研究和探索事件驱动视频的表示、压缩和应用领域。
- 通过混合思维提炼,提高小型语言模型的数学推理能力
通过将大型语言模型的数学推理能力压缩到亿级参数的小型语言模型中,不影响性能,以实现先进的大型语言模型民主化。我们提出了 EoTD(Equation-of-Thought Distillation)技术,将推理过程封装到基于方程的表示中,构建 - 基于坐标的网络在体积数据的高效神经表示
我们提出了一种利用坐标网络和多分辨率哈希编码对体积数据进行压缩和表示的高效方法,通过学习空间坐标和强度值之间的映射,实现有效的压缩,比较了不同编码方案,并展示了多分辨率哈希编码在压缩质量和训练效率方面的优越性,同时借助优化型元学习,特别是使 - 模型并行训练的激活和梯度压缩
大型神经网络的模型并行训练中,同时压缩激活和梯度对收敛性的影响进行了探索,实验证明梯度对于压缩的要求比激活更低,使用 TopK 技术在推理阶段也需要进行压缩,误差反馈技术在模型并行训练中并没有提高性能,但在推理阶段允许无压缩的模型推理并且品 - SnapCap: 高效的快照压缩视频字幕
我们提出了一种从压缩测量直接生成字幕的新型视频字幕生成模型 SnapCap,并通过使用预训练的 CLIP 来提取与语言相关的视觉表示,实验证明我们的模型在速度和字幕质量方面优于传统的视频字幕生成方法。
- 大型语言模型的非空泛化界
现代语言模型可以包含数十亿个参数,是否能够在训练数据之外泛化或者仅仅复述其训练语料库成为了一个问题。我们提供了针对预训练大型语言模型(LLMs)的第一个非虚空的泛化界限,表明语言模型能够发现适用于未知数据的规律。通过使用预测平滑的方法,我们 - LLM 外科医生
通过数据驱动的预训练模型压缩方法,我们可以在不牺牲性能的情况下,对大型语言模型进行剪枝,减小模型的规模。
- 基于 StyleGAN 先验的可扩展人脸图像编码:朝向人机协作视觉压缩
利用 StyleGAN 先验,本研究探讨了利用派生的分层表示构建有效的可伸缩编码范式以满足人和机器的需求。通过逐步学习三层编码分层语义表示,构建机器智能和人类视觉感知支持的渐进式范式,并通过分层可伸缩熵转换器降低层间冗余,达到高效压缩目标。