预训练基础模型的整合数据处理框架

Feb, 2024

预训练基础模型的整合数据处理框架

An Integrated Data Processing Framework for Pretraining Foundation Models

Yiding Sun, Feng Wang, Yutao Zhu, Wayne Xin Zhao, Jiaxin Mao

TL;DR基于统一数据处理框架，提出基于大规模、多样化和高质量预训练数据的基础模型，并通过例子和测试展示其在提高数据质量方面的效果。

Abstract

The ability of the foundation models heavily relies on large-scale, diverse, and high-quality pretraining data. In order to improve data quality, researchers and practitioners often have to manually curate datase

foundation models data processing framework data quality processing module analyzing module

发现论文，激发创造

可组合 NLP 工作流的数据中心框架

本文介绍了一个能够支持自然语言处理工作流的开源框架，该框架包含了一个统一的数据表示方法和一个包含处理器、可视化和注释的大型处理库，提供了简单组装和互操作性，并能够轻松扩展以接入其他自然语言和深度学习库。

Mar, 2021

预训练基础模型综述：从 BERT 到 ChatGPT 的历史

本研究综述了最近的预训练基础模型技术的研究进展，重点探讨了这些技术在文本、图像、图形以及其他数据模态中的应用前景、挑战和机遇，同时也讨论了这些技术的基本组成、现有预训练方法和未来趋势。

Feb, 2023

一种数据中心的框架，用于改进特定领域的机器阅读理解数据集

本文提出了一个旨在增强原始数据集数据质量的框架，并应用于四个生物医学数据集，使用回译技术提高数据集质量，在 BioASQ 数据集上表现出相对提高了 33%/40% 的检索 / 阅读器模型的微调效果。

Apr, 2023

增强基础模型联邦微调中的数据质量

当前基础模型训练的情况表明，公共领域数据已接近枯竭，因此需要在多个专门化和高质量的私有领域数据源之间加强合作。为了解决本地训练模型而不共享私有数据所带来的质量控制问题，我们提出了一个针对基础模型的联邦微调的数据质量控制流程。该流程通过计算反映训练数据质量的分数，并确定一个统一标准的全局阈值，旨在提高整体性能。我们的实验证明，所提出的质量控制流程有助于模型训练的效果和可靠性，从而提高性能。

Mar, 2024

通过自我改进获得更好的代码语言模型

该研究提出了一个简单的数据增强框架，利用预训练和微调阶段获得的知识来生成伪数据，以进一步提高 PLMC 的性能，在 CodeXGLUE 基准测试中的代码摘要和代码生成等方面取得了显著的改进。

Apr, 2023

自然语言处理的基础模型 - 集成媒体的预训练语言模型

本书提供了基础模型的研究和应用的综述，介绍了预训练语言模型 BERT、GPT 和序列到序列变换，并讨论了改进这些模型的不同方法，以及 20 个应用领域中表现最佳的模型。

Feb, 2023

深度神经网络的高效端到端训练中理解数据预处理

本篇论文主要关注于了解公共云中深度神经网络（DNN）训练的数据预处理流程。我们运行实验来测试使用原始数据或记录文件两种主要数据预处理方法所带来的性能影响。初步结果表明，即使使用 NVIDIA DALI 这种高度优化的数据预处理库，数据预处理仍然是明显的瓶颈。其次，我们确定了潜在的原因，采用了多种优化方法，并介绍了它们的优缺点。希望本研究可以为 “数据存储和加载管道” 与 “训练框架” 的新协同设计以及它们之间的灵活资源配置提供参考，使资源得到充分利用并提高性能。

Apr, 2023

Oasis: 大型语言模型预训练的数据筛选和评估系统

数据是构建大规模语言模型的最关键元素之一，我们提出了一个名为 Oasis 的预训练数据整理和评估平台，通过用户友好的交互界面实现数据质量改进和量化评估，平台包括自定义数据整理模块和全面的数据评估模块，还发布了由 Oasis 整理的一个 800GB 双语语料库。

Nov, 2023

迈向具备预训练的持续学习通用框架

通过使用预训练的方法，我们提出了一个通用的框架来持续学习连续到达的任务，从一个理论的角度，我们将其目标分解为三个层次的组成部分，包括任务内预测、任务标识推断和任务适应预测，并提出了一种创新的方法来显式优化这些组件，通过参数高效的微调技术和表示统计量，我们在下游连续学习中实证展示了我们方法的优越性和普遍性，并进一步探讨了在上游连续学习中应用参数高效的微调技术的可行性，同时结合神经科学中的最新进展，讨论了所提框架的生物学基础。

Oct, 2023

利用基础模型进行临床文本分析

本研究提出了一种自然语言处理 (NLP) 框架，使用在任务特定数据上微调的预训练变压器模型来从自由文本临床数据中提取与传染性疾病相关的关键信息，并且结果表明该方法性能优异。

Mar, 2023