通过元学习为预训练语言模型打造多重训练目标
本文研究无监督跨语言预训练在神经机器翻译中的应用,通过对编码器输入进行屏蔽或者基于上下文重新排序和替换等不同预训练方法的比较,发现无监督机器翻译对预训练目标的敏感度较高,与有监督机器翻译相比,更需要具有强大跨语言能力的编码器模型。
Jun, 2021
本文探讨了语言模型的预训练目标对 BERT 学习语言属性的影响,通过使用两个语言学上有意义的目标和三个非语言学动机的目标进行预训练,并发现了这两种不同类型的目标训练出的模型在语言特征表现方面的差异非常小,这也对语言信息熵理论的主流观点提出了疑问。
Mar, 2022
在这项工作中,我们提出了一种元学习算法,通过在推理过程中学习新的视觉概念而无需微调,模拟了类似大型语言模型的能力。我们的方法利用一个冻结的预训练特征提取器,并将元学习重新构造为对具有已知标签的数据点和具有未知标签的测试数据点进行序列建模,从而在 11 个元学习基准中的 8 个中,超过或与元训练于这些基准的最先进算法 P>M>F 相匹配,而无需元训练或微调。
Oct, 2023
我们提出了 MAML-en-LLM,一种新的元训练大型语言模型的方法,可以学习到真正可泛化的参数,不仅在不同任务上表现良好,还适应了未知任务,并且在性能和适应性能上得到了显著提升。
May, 2024
本文提出的元学习微调框架可提高目前状态下的预训练视觉语言模型在跨语言多模态场景下的适应性和性能表现,实验证明该方法在跨语言零样本和少样本多模态交叉迁移的场景下均可提高模型性能。
May, 2023
本文利用元学习算法 (MAML) 扩展低资源 NMT 问题,并通过多语言高资源任务进行学习来适应低资源语言,并利用全局词汇表解决不同语言的输入输出错配, 在使用 18 种欧洲语言作为源任务和 5 种不同的语言作为目标任务的情况下,相对于基于多语言、迁移学习的方法,表明所提出的方法显著优于现有方法,并仅需少量训练示例即可获得具有竞争力的 NMT 系统。
Aug, 2018
本文研究了语言模型训练中显式地将预训练目标与微调目标对齐,发现这种目标对齐能够显著提高微调任务的性能,并降低微调所需的最小样本量,从而使模型更加精简高效。作者称其为 Few Example learning,能够为实时应用和减少人工标注成本提供帮助。
Feb, 2020
该论文提出了元调谐(meta-tuning)方法,旨在直接针对零样本学习目标对预训练语言模型进行微调,应用于分类任务,并通过聚合 43 个现有的数据集和 441 个标签描述来构建元数据集。实验证明,相比基于自然语言推理的先前 SOTA 零样本学习系统以及同样大小的 QA 模型,元调整模型在新的任务上表现更好,同时我们认为,增加参数数量会进一步提升 AUC-ROC 分数。
Apr, 2021
提出一个统一框架的预训练模型,通过 Mixture-of-Denoisers 目标函数实现不同预训练目标的整合,将不同的预训练范例结合在一起,对于多个不同领域的数据集都具有普适性,并在规模为 20B 参数下的 50 个 NLP 任务上取得了最先进的表现。
May, 2022