- ACL用紧凑和一致的下一个令牌分布高效训练语言模型
通过与折叠的 $n$-gram 分布进行预聚合,我们能够更快地训练更好的模型,并在模型质量和收敛速度上实现显著改进。
- Transformer 学习 HMM 的局限性
该研究探讨了基于 Transformer 的架构在学习隐藏马尔科夫模型 (HMMs) 及其变种方面的性能。通过广泛的实验证明,Transformer 在训练速度和测试精度方面始终不如循环神经网络 (RNNs)。此外,研究还揭示了 Trans - 医学图像生成的快速去噪扩散概率模型
Fast-DDPM 是一种简单而有效的方法,可同时提高训练速度、采样速度和生成质量,通过仅使用 10 个时间步进行训练和采样,相比 DDPM,Fast-DDPM 能够在医学图像生成任务中优于基于卷积网络和生成对抗网络的当前最先进方法,并将训 - CVPR高效的视觉 - 语言预训练:基于聚类遮挡
我们提出了一种简单的策略,用于在视觉语言对比学习中遮盖图像补丁,从而提高所学表示的质量和训练速度。该策略随机遮盖视觉上相似的图像补丁群集,并通过强制模型仅根据上下文预测遮盖的视觉结构的单词,提供额外的学习信号,从而超过其他遮盖策略(如 FL - ReZero: 提高基于 MCTS 算法的效率通过及时和快速的重新分析
提供了一种名为 ReZero 的通用方法来提高基于 MCTS 的算法,在显著降低搜索成本的同时保证性能,从而大幅提高训练速度和样本效率。
- SIGIRIISAN: 高效适应多模态表示的顺序推荐与解耦 PEFT
我们的研究引入了 IISAN(Intra- and Inter-modal Side Adapted Network for Multimodal Representation),它利用解耦的 Parameter-efficient Fin - 更快的投影生成对抗网络:迈向更快的少样本图像生成
提出了一种名为 Faster Projected GAN 的改进 GAN 网络模型,主要集中在 Projected GAN 生成器的改善上。通过引入深度可分离卷积(DSC),减少了参数数量、加快了训练速度,并节省了内存。实验证明,在少样本图 - 权重子克隆:使用更大预训练模型直接初始化 Transformer
用权重子克隆(weight subcloning)技术从大型预训练模型中初始化规模较小的转换器模型,实现训练速度的显著提升。
- 连续 16 位训练:加速 32 位预训练神经网络
本研究介绍了一种新方法,通过使用 16 位精度持续训练已存在的 32 位精度的模型,从而在保证准确性的同时显著提高训练速度和资源利用效率。该方法为有限资源环境中的深度学习提供了可行的加速和优化方案。
- GaussianEditor:使用文本指令精细编辑 3D 高斯函数
通过使用高斯编辑器(GaussianEditor)基于 3D 高斯模型的文本指令,可以实现对 3D 场景的精细编辑,相较于之前的方法,具有更快的训练速度和更精准的编辑效果。
- 简化 Transformer 块
通过信号传播理论和经验观察,我们提出了修改的方案,可以简化标准的 Transformer 模块,包括去除跳跃连接、投影或值参数、顺序子模块和归一化层等组件,而无需牺牲训练速度,实验证明这种简化版本的 Transformer 实现了标准 Tr - 强化学习中的快速遗忘记忆
强化学习中的记忆模型的算法,Fast and Forgetful Memory,通过添加结构先验以及具有对数时间和线性空间复杂度的特点,在循环强化学习算法中实现了更高的奖励,并实现了比循环神经网络 (RNNs) 快两个数量级的训练速度。
- 使用线性化随机生成树快速有效地训练图神经网络
提出一种新的有效且可扩展的框架,用于在给定图形结构数据的监督节点分类任务中训练 GNNs。该方法通过在从输入网络提取的随机生成树线性化的一系列路径图上越来越细化的权重更新操作进行。在此过程中,路径图旨在保留原始图的基本拓扑和节点信息。同时, - 大规模序列中通过稀疏闪存注意力加速因果注意力
我们扩展了 FlashAttention 以容纳一大类稀疏性注意力模式,其中包括关键 / 查询删除和基于哈希的注意力。即使具有相对较低的稀疏度,我们的方法在序列长度增加时可见地改进 FlashAttention 的性能。不牺牲困惑度的情况下 - 预测性监控的性能维持事件日志采样
本研究提出了一种选择实例的程序,可以提高训练速度,同时保持可靠的预测准确度,用于预测活动和剩余时间等信息,适用于预测过程挖掘的研究领域。
- EMNLPFastClass:一种高效的弱监督文本分类方法
本文提出了一种有效的弱监督分类方法 FastClass,它使用密集文本表示从外部无标签语料库中检索与类相关的文档,并选择最优子集来训练分类器,相比关键词驱动方法,我们的方法对初始类描述的依赖性更低且训练速度更快,实验证明在广泛的分类任务上, - NeuS2: 多视角重建的神经隐式曲面快速学习
提出了一种快速的神经表面重建方法,称为 NeuS2,通过将多分辨率哈希编码集成到神经表面表示中,实现了两个数量级的加速,并通过 CUDA 实现了整个算法。该方法不仅提高了表面重建的准确性,还能有效地解决神经表面表示的训练时间长的问题,特别是 - 广度优先流水线并行
引入 Breadth-First Pipeline Parallelism,这是一种结合了 pipeline 和 data parallelism 的新型训练策略,通过充分利用 GPU 和每个 GPU 上的小 batch size 的特性, - 高效的多重奖励彩票:增强的准确性、训练和推理速度
本文提出了一种新的方法来学习紧凑而高精度的二进制神经网络,简单地通过修剪和量化基于随机权重的全精度神经网络。通过对 CIFAR-10 进行实验,验证了该方法的有效性,同时还解决了优化修剪比例的问题,并取得了训练速度的提升。
- 辐射场重建的改进直接体素网格优化
本文介绍了一个基于 Pytorch 的 DVGOv2 框架,通过使用 cuda 对部分 Pytorch 操作重新实现,扩展支持 Forward-facing 和 Unbounded Inward-facing capturing,并优化了由