高效编码器预训练的自动文档选择

Oct, 2022

高效编码器预训练的自动文档选择

Automatic Document Selection for Efficient Encoder Pretraining

Yukun Feng, Patrick Xia, Benjamin Van Durme, João Sedoc

TL;DR通过自动识别小但代表领域的子集，我们提出了一种替代更大的训练集的方法来预训练语言模型，拓展了一种基于统计的句子评分方法，以代表性目标领域语料库作为条件，例如，我们将 OntoNotes 语料库视为目标域并从 Pile cynically 选出一个子集对 RoBERTa 类编码器进行预训练，在困惑度和目标域中的多个下游任务上，它始终优于随机选择，但数据量少 20 倍，训练迭代次数少 3 倍，估计的云计算成本少 2 倍，验证了自动文档选择的预训练语言模型食谱。

Abstract

Building pretrained language models is considered expensive and data-intensive, but must we increase dataset size to achieve better performance? We propose an alternative to larger training sets by automatically identifying smaller yet →

pretrained language models data selection roberta lm pretraining domain-representative subsets

发现论文，激发创造

TextGram：迈向更好的领域自适应预训练

衡量和减少大型语言模型训练过程中产生的碳排放量对于绿色人工智能至关重要。我们提出了一种领域自适应数据选择方法 - TextGram，能够有效地从大规模语料库中选择关键数据，并展示了该策略在文本分类任务中相对于其他选择方法的优势。

Apr, 2024

预训练语言模型中的无监督域聚类

本文提出了一种基于大规模预训练语言模型的领域数据选择方法，通过度量句子的隐式相似性进行聚类，仅需要少量数据即可有效提高神经机器翻译的准确性。

Apr, 2020

商用智能语音助理领域分类的主动学习

本研究介绍了一种基于 LSTM 域选择组件的人工智能助理系统中对于选择相关新训练数据的方法，实验结果表明，与随机选择和基于熵的方法相比，在固定标注预算的情况下提供了更高的准确性提升。

Aug, 2019

针对无监督数据选择的稳健指导：捕获领域专属机器翻译中困惑的专有名词

在专业领域内使用多语种机器翻译模型进行句子翻译时，通过广泛的数据集进行训练往往难以准确翻译。为了得到高质量的翻译，获取和翻译专门领域的数据成本很高，因此，通过无监督的方式找到最有效的数据，以降低标注成本变得实际可行。最近的研究表明，通过基于数据量来选择 “适度困难的数据” 可以找到这些有效数据，即数据既不过于困难也不过于简单，特别是在数据量有限的情况下。然而，我们发现在选择无监督数据时建立标准仍然具有挑战性，因为 “适度困难” 可能基于训练的数据领域而有所不同。本研究提出了一种新颖的无监督数据选择方法，即 “获取令人困惑的命名实体”，该方法采用翻译后命名实体的最大推理熵作为选择度量。其动机在于，专门领域数据中的命名实体被认为是数据最复杂的部分，应该以高置信度进行预测。通过对 “专门领域韩英平行语料库” 的验证，我们的方法在无监督数据选择方面表现出稳健性，与现有方法相比具有指导意义。

Feb, 2024

大规模语言模型词表筛选在低频词语音识别中的应用

通过降采样、明确筛选稀有词以及使用基于困惑度的对比筛选等简单的策略，结合生产语音引擎，利用语言模型融合技术，相对于使用原始语料训练出的语言模型，使智能语音助手能够更好地辨别听众说出的稀有词而不影响总体识别准确率，并在实时语音搜索流量中得到了有利的侧面对比评估结果。

Mar, 2022

应答选择中基于 BERT 的有效域自适应后训练方法

本研究基于双向编码器转换器 (BERT) 作为强大的预训练语言模型，针对多轮检索式对话系统中的响应选择问题，提出了一种高效的基于领域特定语料库的后训练方法，发现后训练能帮助模型训练出具有更好上下文表示能力的单词，实验结果显示该方法在两个回答选择基准数据集上达到了新的最优状态（Ubuntu Corpus V1，Advising Corpus），R@1 性能提高了 5.9％和 6％。

Aug, 2019

多领域语音识别的数据选择性迁移学习

本论文提出一种通过有效选择训练语音数据来克服负迁移的新技术，该方法利用基于可能性比率的子模块函数为特定目标的相关言语数据进行选择。在广泛领域数据集上进行的实验表明，该技术可以找到相关数据并限制负迁移。使用这种数据选择技术，基于 PLP 特征的语音模型和基于 DNN 特征的语音模型的方法都可以得到 4％和 2％的相对改进。

Sep, 2015

语言模型预训练的不可简化课程

提出了一种用于大型语言模型预训练的不可约课程算法，通过模拟训练轨迹中的样本损失，以提高学习性，实验证明在各个领域中都能提高验证困惑度，并且降低网络的尖锐度，在 MMLU 基准上表现出更好的 5-shot 准确度。

Oct, 2023

从自动挖掘的同义句训练有效的神经句子编码器

本文提出了一种无需人工标注的数据集构建方法，使用双语文本语料来 fine-tune Transformer 语言模型，并加入一个循环池层构建出有效的特定语种句子编码器，该方法在单张图形卡上使用不到一天时间训练，在波兰语的八个语言任务上实现了高性能，超越了最好的多语言句子编码器。

Jul, 2022

语言模型训练数据的愤世选择

提出了一种使用词汇统计来进行句子选择的信息理论方法代替 Moore-Lewis 方法，避免其存在的问题，达到相似度测量、语言模型训练数据选择等目的。

Sep, 2017