混合规模:大型语言模型的内存高效自适应二值化
BiLLM 是一种创新的 1 位后训练量化方案,定制了预训练的大型语言模型,实现了仅使用 1.08 位权重在各种 LLM 家族和评估指标上实现高准确度的推理,超过了 LLM 的 SOTA 量化方法。此外,BiLLM 能够在单个 GPU 上在 0.5 小时内实现对拥有 70 亿权重的 LLM 的二值化过程,显示了令人满意的时间效率。
Feb, 2024
本文研究了网络二值化技术在大型语言模型(LLMs)压缩中的应用。通过提出一种新的方法,即部分二值化 LLMs(PB-LLM),我们能够在保持低位量化的同时保持 LLMs 的语言推理能力。我们通过后训练量化(PTQ)和量化感知训练(QAT)的分析,提出了恢复量化 LLMs 容量的方法。这些研究和方法对于改善低位量化 LLMs 的性能以及网络二值化在 LLMs 领域的发展具有重要的意义。
Sep, 2023
本文提出了一种新的二值化技术,基于一位权重和激活函数的 Transformer 应用于机器翻译,实验证明其可以达到与浮点型 Transformer 相同的质量,同时大小只有其 16 倍,并通过额外的 LayerNorms 和残差连接改进了二值化的质量。此外,作者在生产规模的翻译数据集上进行了一项标尺研究,表明一位权重 Transformer 在域内和域外环境下均具有可扩展性和良好的泛化效果。
Feb, 2023
本研究提出了第一种可扩展实例,称为 ScaleBiO,通过与一种称为 LISA 的新型算法相结合,使软件在八个 A40 GPU 上扩展到 34 亿参数的大型语言模型(LLM),标志着在实际应用场景中首次成功应用双层优化于大型 LLM。从实证上来说,对于不同规模的模型,包括 GPT-2,LLaMA-3-8B,GPT-NeoX-20B 和 Yi-34B,通过数据重加权广泛实验验证了 ScaleBiO 的有效性,其中双层优化成功地过滤了无关的数据样本,并选择了信息量较大的样本。从理论上来说,ScaleBiO 确保了学习到的数据权重的最优性,并具有匹配传统的一阶平滑凸优化双层优化范式的收敛保证。
Jun, 2024
我们提出了一种通用的、模型无关的强化学习框架 Mixture-of-Skills (MoS),它能在微调过程中自动优化数据使用,以实现大型语言模型的全面技能发展。我们通过在两个广泛使用的基准测试上进行大量实验证明 MoS 显著提高了模型性能,同时在任务特定微调方面,我们提出了一种适应性技术 MoSpec,为特定目的利用各种数据集的效用。我们的工作强调了数据集的再平衡的重要性,并将 MoS 提出为优化大型语言模型微调过程中数据使用的强大通用解决方案。
Jun, 2024
大型语言模型的研究中,Mixture-of-Experts(MoE)方法通过稀疏激活以更少的计算 FLOPs 实现了对 LLMs 的有效扩展,但是由于显著的内存开销,在直接应用于 MoE 模型时,后训练量化的常规方法效果较差。本文所做工作在多个维度对 MoE 结构感知的量化启发式方法进行了探索,包括从粗到细粒度、从 MoE 块到单个线性权重。研究结果揭示了关键原则:不同的 MoE 结构(如块、专家、线性层)需要不同数量的权重位数以实现有效和高效的量化。通过对两个典型 MoE 模型和六个任务进行广泛的基准测试来支持所得结论。同时,我们还引入了一些新的增强方法,以更准确地识别 MoE 量化中需要更高位数分配的关键权重,包括线性权重异常得分器和 MoE 块得分器。此外,后续实验还验证了我们在权重和激活量化方面的发现。
Jun, 2024
在神经机器翻译(NMT)模型中,子词标记化是一种常见的词汇构建方法,但是越来越复杂的任务使其劣势显现。我们提出了多尺度上下文化(MSC)方法,它通过学习不同隐藏状态维度上的不同尺度的上下文化信息,并利用注意力模块动态地集成多尺度的上下文化信息,以解决这些问题。实验证明,MSC 在多语言和领域外的场景中明显优于子词和其他基于字节的方法。
May, 2024
本研究提出了一种统一的缩放定律 BiMix,准确地模拟了数据数量和混合比例的双变量缩放行为,通过使用低成本的代理策略优化数据筛选,以提高训练效率。实验证据表明,基于熵驱动的无需训练的数据混合方法可以实现与更消耗资源的方法相媲美甚至更好的性能。我们希望这些定量研究结果能为高效语言建模的进一步研究和开发提供启示。
May, 2024
本文考虑使用权重量化压缩深度网络,将最近提出的有损权重二值化方案推广到三值化,并在前馈和循环神经网络上进行实验,发现该方案优于现有的权重量化算法,精度与全精度网络相当或更高。
Feb, 2018
该研究提出了一种新颖的双二值化方法(DB-LLM),用于大型语言模型(LLMs)的超低位量化,以提高计算效率,并通过偏差感知蒸馏(DAD)方法减少预测失真,实现了超低位量化时的显著准确性提升和计算效率降低。
Feb, 2024