本文提出了一种新颖的无微调的自然语言处理模型 Fine-tuning-free strategy,通过使用语言和强任务感知的 teacher signal 进行交互式训练,提高了该模型在多项任务中的泛化性和鲁棒性,并且相对于大型模型如 GPT-3 和 InstructGPT 而言,该模型较小,只有 0.3B 的参数。
May, 2023
本文提出了一种基于稀疏先训练和密集微调的预训练语言模型方法,可将训练 FLOPs 的数量降低到原来的 2.5 倍,同时保持与密集基线相同的下游任务准确性。该方法为训练大规模 GPT 模型提供了一个可行的方向。
Mar, 2023
本篇论文提出 Cross-lingual Language Informative Span Masking (CLISM) 和 ContrAstive-Consistency Regularization (CACR) 两种方法来缩小预先训练和微调阶段之间的差距,并以多语言对齐为目标对跨语言机器阅读理解(xMRC)进行改进。实验结果表明,这些方法在多个 xSL 基准测试中取得了显著优越的结果,并且在只有几百个训练示例可用的少量数据设置中超过了以前的最新方法。
Apr, 2022
应用语言模型结构代替任务特定的监督并使用卷积图编码器通过显式引入语义解析提高 NLU 任务的性能。
Dec, 2020
本研究提出了一种基于稀疏性诱导正则化的层选择方法,用于压缩大型预训练语言模型,以提高特定任务的计算效率,并在两个基准数据集上进行了实验验证其有效性。
Apr, 2018
该研究通过开发一种对比自训练框架 (COSINE) 来解决使用弱监督 fine-tune 预训练语言模型 (LMs) 时的过拟合问题,实验证明该方法在自然语言处理的多个任务中表现优异。
Oct, 2020
本文提出了一种带有两个阶段微调机制的结构化图文模型,结合传统的标记和位置嵌入以及新颖的树级嵌入方法,显著提高了英语 WebNLG 2017 数据集的所有文本生成指标
May, 2021
本文提出了一种新颖的方法,通过在预训练语言模型的隐藏表示上操作,通过将自编码器插入到 PLM 的隐藏层之间,将以前层的激活转换为多视图压缩表示,然后输入到上层,以减少过拟合。此方法展示了在各种序列和标记级别的低资源 NLP 任务中的性能改进。
Nov, 2022
该论文探讨了一种嫁接预训练语言模型和平行文本的方法来提高单词对齐质量的方法,提出了从这些微调模型中有效提取对齐信息的新方法,并证明了它们在五种语言对上优于之前的最先进模型,还演示了开源的具备预训练模型的 AWESOME 单词嵌入式多语言编码对齐器的实际性能
Jan, 2021
通过细调教师大型语言模型产生和注释的数据,可以改善较小模型的下游性能,有时只需要原始训练数据的一小部分。
Oct, 2023