深度语言网络:使用变分推断联合训练堆叠的LLMs
本文研究了在训练基本和复杂神经网络时添加梯度噪声的效果,发现这种技术可以显著提高训练效果,尤其是在较深的网络结构中更加有效,鼓励将该技术应用于更多复杂现代架构中。
Nov, 2015
本研究提出一种概率框架来自动学习选择哪些层来使用以优化Transformer模型的性能,用于训练一种适用于多语言机器翻译的共享Transformer网络,缓解梯度消失问题,从而使得深度Transformer网络(例如100层)稳定训练,并在机器翻译和语言建模任务中实现了更好的性能。
Sep, 2020
本文探讨了使用渐进式的梯度下降机制为先前的预训练语言模型 Fine-Tuning 提供含监听词库的句子造句模式,以从中提取模型对于文本特征的认知,并使用软词向量进行任务综合, 将此方式与传统的任务方法进行对比,显示其在任务中的巨大性能提升,而随机初始化甚至可以代替详细的初始化方式,因此这种知识的提取可以廉价地实现。
Apr, 2021
研究提出了LLM-PO,一种新方法,可以使LLMs在没有梯度访问或广泛演示的情况下解决交互式任务。该方法通过维护基于文本的计划并要求LLMs根据其采集的经验反思当前计划的优缺点,并根据LLMs的反馈来更新计划和收集更多的经验,从而解决交互式任务。在HotpotQA上的实验表明,LLM-PO的成功率比基于上下文的学习(ICL)基线更高或相当,同时需要更少的推理成本。
May, 2023
我们提供了一个名为“Concentration”的面向领域通用的提示优化目标,它通过增加注意力强度并减少注意力分布的波动,从而改善了多源领域通用设置中软提示和硬提示通用性优化方法的准确性,同时保持了满意的领域内性能。
Jun, 2024
通过结构化的前馈网络,使用线性层近似来减少大型语言模型的参数数量和计算成本,同时提出一种自我引导训练的方法来改善这种近似所表现出的训练动力学,从而在训练和推断中实现高效和有效的结果。
Jun, 2024
通过渐进性微调将提示知识内化到模型参数中,我们的方法能够使LLMs在新任务中模拟人类学习过程,并逐渐适应该任务,从而减少推理标记超过90%、加速推理4.2倍、节省88.3%的费用。
Jul, 2024
本文介绍了一种名为动态层操作(DLO)的新方法,通过基于层内特征相似性的复杂路由策略,动态地扩展、激活或跳过层来实现对基于Transformer的大型语言模型(LLMs)的垂直扩展。与传统的专家混合(MoE)方法专注于扩展模型的宽度不同,我们的方法针对的是模型的深度,解决了各个输入样本的层表示中存在的冗余问题。我们的框架集成了监督微调(SFT)阶段,消除了资源密集型的持续预训练(CPT)的需求。实验结果表明,DLO不仅优于原始的未扩展模型,而且在显著提高效率的同时,实现了与密集扩展模型相当的结果。我们的工作为构建高效而强大的LLMs提供了一个有希望的方向。一旦被接受,我们将发布我们的实现和模型权重。
Jul, 2024
本文提出了一种Memory-effIcieNt结构化剪枝方法(MINI-LLM),通过整合大小、激活和梯度等多个指标,利用特征图敏感性进行剪枝,从而有效地降低了GPU内存的占用,并在多个下游任务上展现了优异的性能。
Jul, 2024
本研究针对大型语言模型中由于深度和参数数量增加而导致的冗余问题,提出了一种新的解决方案。通过深入分析,发现各层之间的注意力模式高度相似,因此引入了一种名为LiSA的轻量级自注意力替代方案,它通过小型前馈网络对齐相邻层的注意力头并利用低秩矩阵近似层间注意力权重的差异。实验表明,LiSA在减少53-84%冗余计算的同时,保持了高响应质量。
Aug, 2024