基于先前知识的知情预训练
通过在神经网络中引入先前的信息,我们能够在失败的机器学习算法无法学习的情况下解决任务。在这项研究中,我们通过对 64x64 的二进制图像数据集进行训练,使用一个两层 MLP 体系结构学习任务,其中包括以先前的中间阶段作为监督的中间级概念,从而获得可靠的正面证据来支持我们的假设。
Jan, 2013
本文介绍了一个结构化的视角,讨论了先验知识在机器学习中的应用,阐述了先验机器学习的定义、概念和分类框架,并通过阅读相关研究论文总结了该领域的关键方法。
Mar, 2019
在实际应用中,机器学习在嘈杂和低数据的环境下面临一个重要挑战,即如何有效地整合具有数据效率和鲁棒性的归纳偏好。本论文通过介绍一种新的混合范式,即信息元学习,旨在实现人类和机器之间跨任务知识共享的互补性,为信息元学习的基本组成部分和具体实例 - Informed Neural Process 进行了阐述,通过一系列示例和大规模实验,展示了信息元学习在提高数据效率和对观测噪声、任务分布偏移和异质性的鲁棒性方面的潜在益处。
Feb, 2024
介绍了一种新的预训练框架 —— 知识遗传,并研究了如何在预训练过程中使用知识蒸馏作为辅助监督来高效地学习更大的预训练语言模型,并证明了知识遗传在训练效率方面的卓越表现,同时探索了教师 PLMs 的预训练设置对知识遗传的影响和如何应用知识遗传进行领域适应和知识转移。
May, 2021
本文提出了一种启发自可解释的机器学习的框架,该框架通过量化实验评估了数据量和估计范围对知识价值的影响,并阐明了数据和知识之间的复杂关系。这个模型无关的框架可以应用于各种常见的网络架构中,提供了对深度学习模型中先前知识作用的全面理解。同时,它还可以用于提高知情机器学习的性能,以及区分不适当的先前知识。
Jul, 2023
本文研究了在联邦学习中,预训练对于提高性能的重要性,并在人工生成的数据和分布式数据的情况下进行了探索,发现这些技术可以相互补充来进一步提高性能。然而,预训练似乎无法解决在非独立同分布数据情况下的局部模型漂移问题。
Jun, 2022
为了解决少样本类别增量学习中的灾难性遗忘和过拟合问题,我们提出了利用先验知识(LwPK)的方法,通过引入一些后续增量类别的未标记数据来增强预训练模型的泛化能力。我们使用无标签的增量类别样本进行聚类以产生伪标签,并与标记的基类样本一起进行联合训练,有效地为新旧类别数据分配嵌入空间。实验结果表明,LwPK 能够有效增强模型抵御灾难性遗忘的韧性,理论分析基于经验风险最小化和类别距离度量的操作原理得到了验证。LwPK 的源代码公开地可在 https://github.com/StevenJ308/LwPK 获取。
Feb, 2024
本次研究综述了在 NLP 和 CV 领域中,通过注入知识的预训练模型(KEPTMs)在解决预训练模型领域中鲁棒性和可解释性差的问题上取得了重要进展,同时对现有 KEPTMs 进行了系统分类,并提出了未来研究的潜在方向。
Oct, 2021
本文研究自然语言表示、模型压缩技术、预训练、微调和知识蒸馏等方面的互动关系,提出了一种简单而有效的预训练蒸馏算法,分析了模型大小和无标记任务数据属性对其的影响。
Aug, 2019
为了训练深度网络,需要在体系结构、数据增强或优化等方面作出各种设计决策。本文通过使用由数千个在 ImageNet 等经典数据集上训练的模型组成的公共模型库,在预训练模型的任意配对中发现了不同模型从数据中学习出独特的特征集。我们研究了在没有外部排名的情况下,是否能够在不降低性能的情况下从一种模型中转移这种 “互补” 知识到另一种模型,同时将强大、具有相似性能或较弱模型中的额外知识结合起来。通过大规模实验,我们揭示了标准知识蒸馏技术的缺点,并提出了一种更加通用的通过数据划分实现几乎所有预训练模型之间成功转移的方法,也证明了无监督转移的可能性。最后,我们评估了基本模型属性对成功的模型无关知识转移的可扩展性和影响。
Oct, 2023