通过数据过滤实现文本分类的高效模型微调
本研究旨在解决概念漂移的问题,探索了七种文本抽样方法对于语言模型进行精细调整并缓解性能退化的有效性。通过评估基于四种不同损失函数的 SBERT 模型的微观 F1 分数和耗时,研究发现 Softmax loss 和 Batch All Triplets loss 在文本流分类方面表现出色,且较大的样本量通常与提高的宏观 F1 分数相关联。值得注意的是,提出的 WordPieceToken 比例抽样方法显著提升了使用所识别的损失函数的性能,超过了基准结果。
Mar, 2024
本文研究了不同的训练方法,使用预训练语言模型来进行文本分类。研究发现,在训练大型语言模型时,虽然标准微调和提示可以很好地运作,但是还有更有效的替代方法可以降低计算或数据成本。有趣的是,发现提示结合知识蒸馏可以同时降低计算和数据成本。
Oct, 2022
通过 Superfiltering 方法,利用弱模型选择数据用于训练更大的语言模型,不仅大大提高了数据过滤速度,而且在标准基准测试中取得了更好的性能表现。
Feb, 2024
本研究提出了一种基于动态数据修剪的方法,使用 EL2N 度量和初始微调阶段,在保持完整准确性的同时,可将数据量减少 50%~80% 以大大减少微调时间,并在 GLUE 基准测试和四个联合 NLU 数据集上展现出更好的时间 - 准确性平衡。
Jun, 2023
本次研究提出了自适应微调的替代方案,使用早期停止和自定义学习速率表来动态调整训练轮数,特别针对小型数据集,我们在命名实体识别的示例用例中表现出比现有的微调算法更好的性能、稳定性和效率。
Feb, 2022
本文通过引入一种基于文本监督的微调方法(TeS),旨在缓解预训练模型中的 bias 问题,并在 11 个下游任务上进行了验证。实验结果表明,该方法能够显著提高微调的效果。
Apr, 2023
该研究采用数据编程方法,使用基于邻域的弱模型来扩充文本数据集,并通过迭代的过程从大量未标记的数据中鉴别出稀疏分布的例子,并以人为中心确认这些标记数据的过程中,不断改进新的弱模型。研究结果表明,该方法可以显著提高文本分类任务的准确性。
Feb, 2020
通过构建数据过滤网络,该论文研究了大训练集上数据筛选的问题,并基于该网络构建了新的图像 - 文本数据集,为状态 - of-the-art 模型训练提供了高性能数据集,同时还释放了可从公开数据从头训练高性能数据过滤网络的新的 200 亿样本数据集,以促进数据集设计的进一步研究。
Sep, 2023