利用模型库中丰富的知识进行领域通用性的探索和利用
本文提出了一种针对预训练模型的评估和组合范式,其中采用特征选择方法排名预训练模型,并将排名最高的模型聚合为目标任务的模型,最终在 35 种模型上展示了该方法的效果。
Oct, 2022
该论文认为,将学习者的能力分散在多个模型中可以使持续学习方法受益。我们使用统计学习理论和实验证明多个任务在单个模型上训练时会以一种非平凡的方式相互作用。该理论促进了我们的方法,名为 Model Zoo,它受启发于提升(boosting)文献,并在持续学习基准问题上展示了大量准确性的收益。
Jun, 2021
为了训练深度网络,需要在体系结构、数据增强或优化等方面作出各种设计决策。本文通过使用由数千个在 ImageNet 等经典数据集上训练的模型组成的公共模型库,在预训练模型的任意配对中发现了不同模型从数据中学习出独特的特征集。我们研究了在没有外部排名的情况下,是否能够在不降低性能的情况下从一种模型中转移这种 “互补” 知识到另一种模型,同时将强大、具有相似性能或较弱模型中的额外知识结合起来。通过大规模实验,我们揭示了标准知识蒸馏技术的缺点,并提出了一种更加通用的通过数据划分实现几乎所有预训练模型之间成功转移的方法,也证明了无监督转移的可能性。最后,我们评估了基本模型属性对成功的模型无关知识转移的可扩展性和影响。
Oct, 2023
研究通过从不同领域预训练的模型集合(模型库)微调模型是提高低数据量情况下的测试准确性的一种技术,但如何在不进行任何训练的情况下从模型库中预选正确的模型仍然是一个开放的课题。本文使用线性化框架来近似微调,并介绍了两个新的模型选择基准 ——Label-Gradient 和 Label-Feature Correlation,并提出了一个包含单一和多领域模型库以及许多目标任务的新综合基准。该基准突出了与 fine-tuning Imagenet 模型相比使用模型库的准确率提升。我们展示了我们的模型选择基准可以通过少数的选择选择最佳的微调模型,并与现有算法相比具有最高的 fine-tuning 准确度相关性排名。
Jan, 2021
Zoo-Tuning 是一种自适应迁移学习的方法,将预训练模型的参数自适应地聚合到目标模型中以提高知识转移,减少计算和存储成本,并在多种任务中进行了评估。
Jun, 2021
通过分析预先训练的深度学习模型的元数据,并捕捉模型和数据集之间的内在关系,研究人员提出了一种名为 TransferGraph 的新框架,将模型选择问题重新定义为图学习问题,并在 16 个真实数据集上进行了广泛实验,发现相较于现有方法,TransferGraph 在预测性能和实际微调结果之间的相关性上有 32% 的提升。
Apr, 2024
本文介绍了一种开发特定领域小型、快速和有效的预训练模型的通用方法,该方法通过对通用预训练模型进行调整,以及在目标领域进行任务无关的知识蒸馏来实现。具体而言,在适应阶段,我们提出了领域特定词汇扩展,并使用语料库级别出现概率自动选择增量词汇表的大小。然后,我们系统地探索了压缩特定领域的大型预训练模型的不同策略。实验结果表明,我们的方法在生物医学和计算机科学领域的特定任务中表现优于 BERT BASE 模型,同时比 BERT BASE 小 3.3 倍,快 5.1 倍。
Jun, 2021
本文主要研究基于深度神经网络的方法在训练数据与测试数据分布不一致时的性能问题,并通过学习训练样本的权重以消除特征之间的依赖关系,从而提高深度模型的性能。通过在多个分布泛化基准测试上的实验,与同类研究相比,我们的方法取得了很好的效果。
Apr, 2021
提出一种在测试时使用少量无标签数据进行模型适应以应对分布偏移的方法,通过利用预训练模型和源域的相关信息从有限数据中提取领域知识,并通过建立知识库、领域特定提示生成器、引导模块、领域感知对比损失和元学习等技术实现领域知识的提取。在多个基准测试中验证了该方法,表明该方法在领域知识提取方面优于之前的工作。
May, 2024