- 通过自适应优化子网络有效地微调预训练语言模型
本文提出了一种基于梯度反向传播的动态参数选择(DPS)算法,以在有限的目标数据集上对大规模预训练语言模型进行微调,该方法在 GLUE 基准测试中显示出相对于以前的微调方法性能更好且更稳定,并在跨领域转移实验和低资源场景中表现出更好的结果,从 - 语言任务后训练量化方法的实证评估
通过分别实验评估了三种量化方法(LQ,ACIQ 和 OCS)对 BERT-Base 和 BERT-Large, 研究表明 OCS 可以将 BERT-Base 和 BERT-Large 量化为 3 位,并在 GLUE 基准测试中保持 98%和 - BEBERT:高效稳健的二进制集成 BERT
本文提出了一种二进制集合 BERT(BEBERT)模型,采用集成技术来弥补其与全精度 BERT 相比的精度差距,同时保持计算效率,实验证明,BEBERT 在精度和鲁棒性方面明显优于现有的二进制 BERT 模型,训练时间更快,模型尺寸和 FL - EMNLPPATS:针对预训练语言模型的敏感度感知噪声学习
本文提出了一种嘈杂训练机制 PAT(根据敏感性的扰动),通过让一些不敏感的参数添加嘈杂值,以激活他们的下游任务贡献,从而提高预训练语言模型(PLMs)的微调性能,并在 GLUE 基准测试中进行了广泛的实验,证明了该方法的有效性。
- EMNLP微注意力适配器:上下文比参数数量更重要
本文探讨了使用小型注意力机制作为适配器的有效性及其在 GLUE 基准测试和 FewGLUE 基准测试方面的性能表现,证明了相比于以前的方法,它能针对下游任务进行更好的参数调整和更新。
- EMNLP预训练语言模型的隐藏状态可变性可指导迁移学习的计算降低
该研究提出通过基于层内和层间变异性度量的方式选择适当的层数和分类器位置,以降低迁移学习方法的计算成本,而不影响其性能,并在 GLUE 测试集上进行了广泛实验,证明了该方法的有效性。
- DyLoRA: 使用动态无搜索低秩适应进行参数高效微调预训练模型
本文提出了一种名为 Dynamic Low-Rank Adaptation 的技术,旨在通过训练预训练模型的适配器模块,为多个秩数建立动态搜索免费的模型,并证明该方法可以显著加快训练速度并在 GLUE 基准测试中取得一致的优秀表现。
- EMNLP稀疏教师也可以拥有丰富的知识
本研究提出一种稀疏教师策略,对于过度参数化的教师进行优化,以产生既有表现力又更容易为学生所理解的知识,实现了预训练语言模型的知识精炼。在 GLUE 基准测试上,经过广泛的实验,提出的远程控制器可提供高效的结果。
- ACL使用整数正向和反向传播微调预训练语言模型
本研究提出使用整数算术(integer arithmetic)进行 BERT 模型的微调,通过改变整数位宽度,在 SQuAD 和 GLUE benchmark 数据集上验证了该方法的有效性,显示出 16 位整数 BERT 的指标性能与 16 - 面向边缘 AI 系统的自动高效 BERT 剪枝
提出 AE-BERT,一种自动和高效的 BERT 剪枝框架,可在资源受限设备上实现基于 Transformer 自然语言处理模型并提高准确性。实验结果表明,在压缩模型后,与 CPU 相比使用 AE-BERT 产生的 BERT 基础编码器子网 - 结构化提示调整
本文提出了一种名为 “结构化提示调整” 的简单有效的方法来改进提示调整,并比较了其与标准提示调整的实验结果。该方法通过超级网络生成柔性提示嵌入,可以更灵活地应用于模型设计和单任务、多任务训练环境。实验证明,相比标准提示调整,结构化提示调整在 - FlexiBERT:当前的 Transformer 架构是否过于同质化和僵化?
本文提出了一种名为 FlexiBERT 的灵活多样的异构模型,引入了新的图形相似度嵌入方案和 BOSHNAS 神经体系结构搜索策略,以此解决使用固定维度模型的 NAS 方法所遇到的子优解问题,大大提高了 GLUE 基准的性能。
- ICLR探索预训练语言模型的极端参数压缩
探索利用张量分解实现更大的压缩比率来压缩 BERT 模型的研究,取得了可接受的性能损失并显著提高了推理效率,最高压缩至原模型的 1/48,且在 GLUE 基准测试中取得了与原模型相当或略优的表现,该方法相对于蒸馏等现有的压缩方法独立有效。
- ACLDecBERT:利用因果性注意力掩码增强 BERT 的语言理解能力
本研究提出了一种新的预训练语言模型 DecBERT,通过引入因果注意力机制用于 BERT 模型的位置编码,证明其在自然语言处理任务中比传统方法更为有效,并通过 GLUE 基准测试取得了良好表现。
- ACL自动多标签提示:简单且可解释的少样本分类
本研究提出了 AMuLaP 方法,利用一对多标签映射和基于统计的算法自动选择少样本文本分类的标签映射,并在 GLUE 基准测试上展示出竞争性能。
- ICLR利用对抗式训练信号生成器进行文本编码器的预训练
提出了一种新的框架 AMOS,其中通过多个辅助生成器的多个信号混合来用对抗学习课程进行文本编码器的预训练,通过 ELECTRA 风格的预训练,主编码器训练为鉴别器,以检测辅助掩蔽语言模型生成的替换标记,AMOS 在 GLUE 基准测试中比 - Y-Tuning:一种通过标签表示学习进行大规模预训练模型高效调整的新兴范式
本文提出了一种高效的 Y-Tuning 方法,用于将已经训练好的大规模模型应用于特定的下游任务,通过对特定任务标签的学习,对大规模 PTMs 进行有效的适应,实现了在 GLUE Benchmark 上 96%以上的性能表现与 2%可调参数和 - ACLUniPELT: 一种统一的参数效率语言模型调节框架
该研究提出了 UniPELT 框架,将不同的 PELT 方法作为子模块,并学习通过门控机制激活最适合当前数据或任务设置的子模块。在 GLUE 基准测试中,UniPELT 相对于其单独包含的最佳 PELT 方法都能够获得 1-4%的收益,并甚 - EMNLP在大型语言模型中培养孩子:朝着有效和具有普适性的微调
本篇文章提出了名为 Child-Tuning 的 fine-tuning 技术,通过在反向传播过程中遮盖非子网络的梯度来更新大型预训练模型的子网络的子集,实验结果表明 Child-Tuning 在 GLUE 基准测试的各个下游任务中始终优于 - EMNLP通过新颖数据增强和课程学习提高对比学习效率
EfficientCL 是一种内存高效的持续预训练方法,通过对比学习和新颖的数据增强和课程学习来实现。在 GLUE 基准测试上,与基准模型相比,该模型的表现更好,尤其是在句子级任务上,并且只需要与基准模型相比仅有 70% 的计算内存。