本文提出了一种基于卷积操作的知识转移方法,通过使用两个模块,即叙述模块和翻译模块,将教师网络的知识转化为学生网络的知识,从而实现模型压缩和知识转移,实验结果表明这种方法优于传统的知识转移方法。
Feb, 2018
本研究旨在利用机器学习方法,通过增加 KNN-Based Information Fetching (KIF) 模块,将外部知识进行存储,并将其应用在 Dialog Modeling 中,以此提高自动和人类评估的模型性能。
Apr, 2020
本文研究知识迁移领域的另一种方法:Born-Again Networks (BANs),将学生的参数与老师的相同, 来达到比老师更好的性能表现。在计算机视觉和语言建模任务中, BANs 表现出甚至比老师高出许多的性能得分,并且在各种规模的学生中,将知识从 DenseNets 到 ResNets 和反向传输,都显示出明显的优势
May, 2018
本文提出了一种新的基于图的知识迁移方法,其中引入了知识迁移图和四个门函数来控制梯度,以实现更加灵活和多样化的迁移方式。实验结果表明,该方法在 CIFAR-10、-100 和 Tiny-ImageNet 数据集上实现了显著的性能改进,并能够发现出色的图结构。
Sep, 2019
通过使用因式分解张量网络(FTN)的方法,可以在几个参数增加的情况下,实现与独立单任务 / 领域网络相媲美的准确性。FTN 利用源模型中的冻结骨干网络,并逐步添加任务 / 领域特定的低秩张量因子到共享的冻结网络,从而能够适应大量的目标领域和任务,而不会发生灾难性遗忘。此外,与现有方法相比,FTN 所需的任务特定参数数量显著较少。
Oct, 2023
为了训练深度网络,需要在体系结构、数据增强或优化等方面作出各种设计决策。本文通过使用由数千个在 ImageNet 等经典数据集上训练的模型组成的公共模型库,在预训练模型的任意配对中发现了不同模型从数据中学习出独特的特征集。我们研究了在没有外部排名的情况下,是否能够在不降低性能的情况下从一种模型中转移这种 “互补” 知识到另一种模型,同时将强大、具有相似性能或较弱模型中的额外知识结合起来。通过大规模实验,我们揭示了标准知识蒸馏技术的缺点,并提出了一种更加通用的通过数据划分实现几乎所有预训练模型之间成功转移的方法,也证明了无监督转移的可能性。最后,我们评估了基本模型属性对成功的模型无关知识转移的可扩展性和影响。
本文提出了 IFactor 框架,它由四类潜在状态变量建模,以捕捉强化学习系统中各种信息的不同方面,并在合成环境和深度强化学习环境中展示了其性能优于基线的实验结果。
Jun, 2023
本文提出了一种增量学习方法,基于 Tucker 分解来跨领域学习和任务学习,不会产生灾难性遗忘,此方法在 Visual Decathlon Challenge 的 10 个数据集上展现出了紧凑表示的效果和与其他方法相当的性能。
Apr, 2019
本论文提出了一种信息理论框架用于知识转移,将知识转移视为最大化教师和学生网络之间的互信息,将该方法应用于不同架构的网络间的知识转移,证明了其性能远超现有方法。
本文提出一种神经知识库及知识注入策略,将额外的事实知识注入到预训练模型中,验证了其对模型性能的提升,同时保证了模型通用语言建模能力的不变性,并探讨了知识库的可解释性和灵活性。
Jul, 2022