基于有限领域数据的廉价推理专用语言模型

Feb, 2024

基于有限领域数据的廉价推理专用语言模型

Specialized Language Models with Cheap Inference from Limited Domain Data

David Grangier, Angelos Katharopoulos, Pierre Ablin, Awni Hannun

TL;DR大语言模型在应用到缺乏大量推理预算和大量领域内训练集的任务中具有多样性，但具有挑战性。本研究规范了这些约束，并区分了四个重要变量：预训练预算（用于在目标领域之前进行训练）、专业预算（用于在目标领域之后进行训练）、推理预算和领域内训练集的大小。在这些设置中，我们比较了机器学习文献中的不同方法。受到推理成本的限制，我们找到了比训练非常大的基础变压器模型更好的替代方案。特别是，我们发现超网络和专家混合模型对于大的预训练预算具有更好的困惑度，而在重要抽样数据集上训练的小型模型对于大的专业预算是有吸引力的。

Abstract

large language models have emerged as a versatile tool but are challenging to apply to tasks lacking large inference budgets and large in-domain training sets. This work formalizes these constraints and distingui

large language models inference budgets pretraining budget specialization budget in-domain training set

发现论文，激发创造

有预训练还是有标注数据？在有限预算条件下进行领域自适应

本文主要研究了如何在有限预算的情况下，通过选取最佳的数据标注和预训练策略，优化 NLP 领域的域适应问题，研究表明，小预算情况下，全部资金用于数据标注可以获得最好的性能表现，但预算足够大时，则在数据标注和领域内预训练之间进行平衡会更好。

Sep, 2021

适应并蒸馏：为特定领域开发小型、快速且高效的预训练语言模型

本文介绍了一种开发特定领域小型、快速和有效的预训练模型的通用方法，该方法通过对通用预训练模型进行调整，以及在目标领域进行任务无关的知识蒸馏来实现。具体而言，在适应阶段，我们提出了领域特定词汇扩展，并使用语料库级别出现概率自动选择增量词汇表的大小。然后，我们系统地探索了压缩特定领域的大型预训练模型的不同策略。实验结果表明，我们的方法在生物医学和计算机科学领域的特定任务中表现优于 BERT BASE 模型，同时比 BERT BASE 小 3.3 倍，快 5.1 倍。

Jun, 2021

更多计算是您所需之物

基于新的缩放定律，我们推测模型性能主要取决于计算经费的使用，而与模型大小和数据集大小的具体分配无关。根据统一的缩放定律，我们预测（a）训练应优先考虑较小的模型大小和较大的训练数据集以提高推理效率，（b）假设可用的网络数据集已耗尽，扩大模型大小可能是进一步改善模型性能的唯一途径。

Apr, 2024

低资源领域适应的多阶段预训练

本文研究使用预训练语言模型的转移学习、领域特定术语扩展词汇表以及利用未标记数据结构创造辅助合成任务等方法，在 IT 领域的三个任务中，采用逐步应用的策略在预先训练的 Roberta-large LM 上显示出显着的性能提升。

Oct, 2020

领域特定预训练模型的重要性：相较通用模型而言

研究表明，对面向单一领域的数据进行预训练，也可以得到性能强大且经济实惠的替代解决方案，本文以 StackOverflow 为例，使用 SOBertBase 和 SOBertLarge 模型在该领域上预训练，并在 SO 特定的四个下游任务上验证了其表现优于基线和大型通用模型。

Jun, 2023

神经语言模型的域自适应权衡

探讨了语言模型适应与机器学习理论的关系，研究了大型领域外训练集和小型领域内训练集之间的训练方法的优劣，提出了领域外预训练加上领域内微调比单独应用更为通用，并提出了基于数据选择的适应技术的公共框架。

Sep, 2021

研究预训练语言模型在跨领域数据集上，更接近通用人工智能的一步

本文研究了预训练语言模型在领域任务泛化能力方面的能力，发现预训练模型在计算机视觉、蛋白质折叠预测等任务中表现出色，优于从头开始训练模型，并指出预训练嵌入在输入层非常重要。

Jun, 2023

预训练数据混合提高 Transformer 模型选择能力

在这项研究中，我们研究了 Transformer 模型，特别是大型语言模型（LLMs），它们具有在上下文中学习的显著能力，即在未见过的输入 - 输出示例的提示下执行新任务，而无需任何显式的模型训练。我们的实证结果显示变压器在选择无监督模型和在上下文中学习不同任务家族方面表现出近乎最优的能力，但当面对超出预训练数据领域的任务或功能时，我们展示了变压器的各种失败模式和其泛化能力的退化，即使是简单的外推任务也是如此。总的来说，我们的结果强调了高容量序列模型令人印象深刻的上下文学习能力可能与其预训练数据组合的覆盖范围更紧密相关，而不是创造基本泛化能力的归纳偏差。

Nov, 2023

有阅读素养的学生学习更好：关于预训练紧凑模型的重要性

本文研究自然语言表示、模型压缩技术、预训练、微调和知识蒸馏等方面的互动关系，提出了一种简单而有效的预训练蒸馏算法，分析了模型大小和无标记任务数据属性对其的影响。

Aug, 2019

领域私有转换器

本篇论文提出了一种新颖的方法 —— 领域隐私，用以衡量条件语言模型在不同域之间泄露的可能性，并根据基于标记级别的域分类开发策略函数和一种高效的微调方法以提高已训练模型的域隐私；实验表明，我们的方法具有与不同 ially 私有语言模型的方法相当的弹性。

May, 2023