关于多语言下鲁棒的增量学习
研究 Continual Multilingual Learning 的问题,提出使用 parameter-efficient finetuning 更新 multilingual model 来减少语言特异性的遗忘,同时提高跨语言转移能力,通过 LAFT-URIEL pipeline 来改善支持语言的性能
Sep, 2022
本论文研究在一种包含 51 种语言和分类、序列标记任务的大规模多语言持续学习框架中,灾难性遗忘问题以及最小化此问题的方法,提出了一种学习率调整方法 LR ADJUST,其能有效地保留新信息而不过度覆盖过去的知识,并且该方法在多种持续学习方法中都行之有效。还进一步深入分析了该大规模多语言环境下灾难性遗忘的动态过程。
May, 2023
本文章重新定义了增量学习,提出了一种名为 “幻影抽样” 的技术,通过生成模型和深度神经网络的实现,成功避免了增量学习中的灾难性遗忘,并在各种基准数据集上验证了该技术可以实现严格的增量学习。
May, 2017
该论文提出了一种增量学习框架,针对在线学习场景下的两个主要障碍,即新类的学习和旧类的新观测值的变化。通过引入修改的交叉蒸馏损失和两步学习技术来解决问题(1),并提供通过更新范例集合减轻问题(2)的简单而有效的方法,并在基于 Food-101 数据集的在线食品图像分类的真实应用中展示了该方法的性能。
Mar, 2020
本文提出了两种优化神经网络语言模型适应新数据的方法,包括在重新采样数据上进行继续训练或插入适应性层。在 CAT 环境中应用于 SMT 系统中,这两种方法均取得了显著的改进。
Dec, 2014
本篇论文提出了一种基于局部特征训练的两阶段方法,能够实现大规模预训练神经机器翻译模型的连续学习,以适应新任务,采用这种方法能够在不访问以前的训练数据或引入模型分离的情况下解决之前方法的不足。
Nov, 2022
本文提出并验证了一种纠正新旧类别数据不平衡问题的方法,利用一个线性模型矫正了全连接层的弱分类偏见,在两个大型数据集 ImageNet 和 MS-Celeb-1M 上比现有算法表现更好。
May, 2019
一项新的增量学习方法使用少量的示例集合来学习深层神经网络,解决了深度学习中的灾难性忘记问题,在 CIFAR-100 和 ImageNet(ILSVRC 2012)图像分类数据集上取得了最先进的成果。
Jul, 2018
本研究通过将权重分解和弹性权重整合的方法相结合,以抵消灾难性遗忘并快速学习新语言,在 10 种语言的初始训练中实现了从 10 种语言到 26 种语言的学习,同时消除了灾难性遗忘。训练后的性能表现可以与全部语言同时训练相媲美。
Nov, 2022
在本研究中,提出了一种鲁棒的变换器方法(ROBUSTA)来解决少样本分类增量学习问题,其中利用随机分类器、稳定训练过程的批归一化层以及小任务特定可训练参数(delta parameters)来克服过拟合和遗忘问题,并通过非参数方法推断模型预测的 delta 参数。通过一系列实验验证了 ROBUSTA 在基准问题上的优势,且无需数据增强方法即可显著超越先前的方法。
May, 2024