用于高效语言模型微调的 NTK - 逼近 MLP 融合

ICMLJul, 2023

NTK-approximating MLP Fusion for Efficient Language Model Fine-tuning

Tianxin Wei, Zeming Guo, Yifan Chen, Jingrui He

TL;DR通过使用神经切向核（NTK）逼近多层感知器模块（MLP）的预训练语言模型（PLM），提出了一种轻量级 PLM 压缩方法，通过重新考虑 MLP 作为子 MLP 集合并将其聚类为给定数量的重心，进而恢复为压缩的 MLP，惊人地显示出良好逼近原始 PLM 的 NTK。

Abstract

fine-tuning a pre-trained language model (PLM) emerges as the predominant strategy in many natural language processing applications. However, even →

发现论文，激发创造

通过对 14 个 NLP 任务的实验验证，我们探究了采用 NTK 对预训练语言模型进行 fine-tuning 的机制和条件，并提出了一个基于 NTK 的解释，解释了参数高效子空间 fine-tuning 方法的成功原因。

Oct, 2022

提出了一种基于量子多体物理中的矩阵积算符（简称 MPO）的新型预训练语言模型压缩方法，其可以将原始的矩阵分解成中心张量和辅助张量，通过仅更新辅助张量的参数进行微调并为 MPO 结构设计优化算法，可应用于原始或压缩的语言模型以实现更轻量级的网络和显著减少微调参数。

Jun, 2021

本文介绍了如何将 k - 最近邻分类器与预训练语言模型相结合以提高自然语言处理的效率，具体方法是采用 k - 最近邻分类器对预训练语言模型进行文本表示，通过校准训练过程来掌握具体实例的困难度，并将校准结果与预训练语言模型的分类器相结合。

Apr, 2023

本研究提出了一种整合预训练语言模型和神经机器翻译的方法（PiNMT），通过引入 PLM 多层转换器、嵌入融合和余弦对齐等关键组件以及分离学习率和双步训练等训练策略，实现了 PLM 与 NMT 的有效整合，提升了性能，并在 IWSLT'14 数据集上取得了最新的研究成果。

Oct, 2023

本文提出了一种 APT 框架，在神经机器翻译中利用预训练模型的语言知识，该框架包括两个模块：1）动态融合机制，将从通用知识中适应的任务特定特征融合到 NMT 网络中；2）知识蒸馏范式，在 NMT 训练过程中连续学习语言知识。实验结果表明，我们的模型优于强基线和微调对应模型。

Dec, 2019

本文提出了一种新颖的方法，通过在预训练语言模型的隐藏表示上操作，通过将自编码器插入到 PLM 的隐藏层之间，将以前层的激活转换为多视图压缩表示，然后输入到上层，以减少过拟合。此方法展示了在各种序列和标记级别的低资源 NLP 任务中的性能改进。

Nov, 2022

建立在神经切向核 (NTK) 和随机矩阵理论 (RMT) 的最新进展之上，我们提供了一种创新的压缩方法用于宽且全连接的深度神经网络，实现 “无损” 压缩，即压缩后的网络在渐近意义下与原始网络具有相同的 NTK，权重和激活只取值于 {0, ±1}。

Mar, 2024

介绍了一种低内存、低延迟基于 MLP-Mixer 的 pNLP-Mixer 模型，通过在语言学上指导投影层，实现了高效的语义分析，达到了与 38 倍参数的 mBERT 相当的性能。

Feb, 2022

本文主要通过对比分析神经概率语言模型和 Transformer 模型的特点，提出使用 NPLM 的本地连接层替换 Transformer 的第一自注意层，从而在三个单词级语言建模数据集上获得小而一致的困惑度降低。

Apr, 2021

基于注意力引导的权重混合和双层优化框架，我们提出了一种用于预训练语言模型的微调方法，以解决在低资源数据集上微调模型时的不稳定性和过拟合问题，在广泛的实验中验证了该方法的有效性和优越性。

Mar, 2024