- 关于组合性和递增学习的二阶视角
对深度预训练模型进行微调最近揭示了其具有组合特性能力,从而使得多个专门模块能任意组合成一个多任务模型。本文通过对损失函数的二阶泰勒近似方法进行理论研究,试图揭示标准非线性网络中组合特性的奥秘,强调了处于预训练盆地内对于实现可组合模块的重要性 - 增量学习中过去数据集的深度神经网络快速评估
通过提取参数值的梯度以及参数值的更新差异,我们提出了一种快速评估深度神经网络在过去数据集上准确性改变的新方法,并通过几个数据集的实验结果表明,该方法能够在恒定时间内估计额外训练对准确性的影响。
- AAAI无监督连续异常检测中的对比学习提示
无监督的持续异常检测方法 UCAD 通过对比学习的提示来提供无监督异常检测的持续学习能力,并使用基于结构的对比学习 (SCL) 和 Segment Anything Model (SAM) 来改进提示学习和异常分割结果。
- FILP-3D:利用预训练视觉语言模型增强 3D 少样本类别渐进学习
通过引入 Redundant Feature Eliminator (RFE) 和 Spatial Noise Compensator (SNC) 两个新颖组件,实现了在有限数据上进行递增训练时对灾难性遗忘问题的减轻。实验结果表明,该方法在 - LMTuner:一个用户友好且高度可集成的用于对大型语言模型进行微调的训练框架
在大型语言模型的迅猛发展中,高度可用、可集成和可扩展的 LMTuner 系统为迅速和最小人为干预训练大型语言模型提供了解决方案,支持从 300M 到惊人的 130B 参数的单服务器训练。
- iPINNs: 物理信息神经网络的增量学习
本文提出了一种增量 PINNs (iPINNs) 的方法,它可以连续学习多个偏微分方程(PDE),从而提高了对预测的准确性。
- KEEP:一种在线推荐的工业级预训练框架,通过知识抽取和插入实现
本文提出了一种工业推荐系统中通过从超域中提取知识来改善数据稀疏问题的方法,并设计了一个基于监督预训练的知识提取模块和插入网络的 KEEP 框架以适应增量训练的在线推荐。实验证明,该方法取得了良好的效果,并且在阿里巴巴的展示广告系统中部署后带 - 动态语言模型用于不断演变的内容
本文研究如何将预训练语言模型适应于不断变化的 Web 内容,通过分析 Twitter 数据的演化,探索了词汇组成和抽样方法对语言模型的增量训练的影响,证明了该方法比离线重新训练新模型更具优越性
- 流式图神经网络的持续学习
本文提出一种基于持续学习的流式 GNN 模型,通过信息传播和数据重放与模型正则化相结合,实现了对新模式和既有模式的同时维护,解决了历史知识被新知识覆盖的灾难性遗忘问题。在多个实验数据集上的节点分类结果表明,该模型能有效地更新模型参数并达到与 - 一台机器人的 Few-Shot 增量式目标学习
本文介绍了使用少量的视觉示例逐步训练机器人识别不同物体类别的实用系统,并在表格整理任务中演示了该系统的能力。实验评估表明,我们的方法几乎可以达到一次性使用所有示例(批量训练)训练的系统的性能水平。
- 开放世界节点分类的图神经网络终身学习
本文提出了一种在图上进行终身学习的增量训练方法,通过 $k$- 邻居时间差的方法解决历史数据的差异,并在五种典型的 GNN 体系结构上进行训练,结果表明相对于对完整图数据的训练,只需要保留至多 50% 的 GNN 感受野,就能保证至少 95 - 深度卷积神经网络的增量式训练
提出了一种增量训练方法,将原始网络分成子网络,并在训练过程中逐步将其合并到运行的网络中。此方法通过引入前瞻初始化,使网络动态生长更平滑,并可用于仅使用全局参数分数的情况下识别原始最先进网络的较小分区,以实现更快的训练。在 CIFAR-10 - 负采样增量式 Skip-gram 模型
本文从经验和理论两个角度,探索了一种用于 skip-gram 模型的增量式训练策略,通过提供简单的增量式扩展并深入理论分析,解决了现有神经词向量嵌入算法(包括 SGNS)的多遍训练和无法进行增量式更新的问题,实证实验证明了其正确性和实用性。