预训练模型训练数据指南:测量数据的年龄、领域覆盖、质量和毒性的影响
该研究旨在界定预训练在处理数据分布偏移时可以解决的失败模式,发现预训练可以缓解数据外推问题,但对数据集偏见无效;研究结果指出,预训练和干扰同时使用可以增加模型的鲁棒性,也发现在小规模、非多样但去除偏见的数据集上进行微调可以得到比在大规模和多样但有偏见的数据集上进行微调更加鲁棒的模型。
Feb, 2024
本文研究了语言模型在预训练阶段遭受数据污染的影响,探索了文本污染和真实数据污染对模型性能的影响,调查了不同下游任务中污染的重复效应,并指出了当前 LLM 报告中关于污染定义的局限性和不足之处。研究结果为了解数据污染对语言模型的影响提供了新的见解,并强调在 LLM 研究中进行独立、全面的污染评估的必要性。
Jan, 2024
通过对 LLMs 的 48 个数据集进行系统分析,我们测量了它们对 LLMs 的性能的影响,并研究了它们之间的相关关系,从而为更有效的 LLMs 预训练提供了洞见。
Feb, 2024
衡量和减少大型语言模型训练过程中产生的碳排放量对于绿色人工智能至关重要。我们提出了一种领域自适应数据选择方法 - TextGram,能够有效地从大规模语料库中选择关键数据,并展示了该策略在文本分类任务中相对于其他选择方法的优势。
Apr, 2024
通过比较数据质量的简单估算方法困惑度和更复杂、计算密集的评估方法的错误 L2 范数和记忆化,我们发现困惑度方法在去除数据噪声和提升预训练数据集质量方面具有较好的效果。我们能够在仅使用原始训练数据的 30% 进行训练的情况下,改进我们的基准模型,这为自动筛选高质量数据集提供了新的方法论,并表明大部分的预训练数据可被删除而保持性能。
Sep, 2023
大型语言模型的能力来源于它们的预训练数据,而模型开发始于数据筛选。我们的研究基于网络文本,将其连接到社交和地理背景,并创建了一个包含 1030 万个网站创作者自我描述的新数据集,提取了关于他们的兴趣、社交角色和地理隶属的信息。然后,我们进行了第一项研究,调查了十种 “质量” 和英语语言标识(langID)过滤器对这些社交维度变化的网页的影响。我们的实验揭示了数据筛选中一系列的隐含偏好:我们发现一些质量分类器像专题领域过滤器一样起到作用,而 langID 可能会忽视世界上某些地区的英语内容。总体而言,我们希望我们的工作能够促进关于预训练数据筛选实践及其社会影响的新的研究方向。
Jan, 2024
本研究提出了两种新的预训练数据增强策略(MEDA 和 INST),可以显著降低模型的有毒内容,而不影响其实用性,进而证明我们的最佳策略(INST)可将模型毒性概率降低长达 61%,同时在五个基准 NLP 任务上保持准确性并将四个偏差检测任务的 AUC 得分提高了 1.3%。我们还展示了该技术的泛化性,通过提高训练样本和模型参数的数量。
Feb, 2023
本研究旨在探讨何种情况下用合成资源进行预训练是有效的。我们将神经机器翻译作为情景背景,研究使用两种新方法进行翻译模型预训练的影响,并在多种语言对上进行实证评估,结果表明预训练的好处即使在混淆或纯合成数据的情况下也可以实现,并研究混淆和合成预训练技术能够减轻虚假模型毒性的程度。
Dec, 2022
本研究通过研究不同领域和任务的分类模型,验证了在特定领域和任务上进行二次预训练(领域自适应和任务自适应预训练)可以显著提高性能,同时也发现多阶段适应预训练在任务表现上取得了大幅提升。
Apr, 2020
本文研究使用预训练语言模型的转移学习、领域特定术语扩展词汇表以及利用未标记数据结构创造辅助合成任务等方法,在 IT 领域的三个任务中,采用逐步应用的策略在预先训练的 Roberta-large LM 上显示出显着的性能提升。
Oct, 2020