通过线性预测提高深度神经网络训练效率和性能
我们提出了一种参数和计算效率高的转移学习方法,通过动态架构跳过和增强学习来优化视觉语言预训练模型,以减少参数数量和计算冗余,并验证其在视觉语言任务中的优越性。
Sep, 2023
参数共享的预训练语言模型(PLMs)已成为资源受限环境中成功的方法,在不牺牲性能的情况下显著降低了模型存储和内存成本。本文利用神经常微分方程(ODEs)构建了一种简单的技术,提高了参数共享 PLMs 的推理效率,并提出了一种简单的预训练技术,实现了更大的推理加速。实验结果证明了我们方法在自回归和自编码 PLMs 上的有效性,并对在资源受限环境中更高效地利用参数共享模型提供了新的见解。
Oct, 2023
通过提出深度解耦迁移学习(DTL),我们可以减少大量的 GPU 内存使用和可训练参数,并在准确性上显著超过现有的 PETL 方法,在几个标准基准上达到了新的最先进水平。
Dec, 2023
探讨了一种基于网络剪枝的高效的神经架构搜索方法用于学习预训练模型的参数优化方法 (Parameter-efficient tuning),并在 GLUE 上的实验结果表明算法的有效性以及 PET 网络结构设计的实际表现。
May, 2023
本文旨在研究使用预训练语言模型(Pre-trained language models,PLMs)作为一个独立的模型来进行视觉语言推理任务。提出了一个名为 Dynamic Visual Prompting(DVP)的新型转移学习方法,通过搜索算法,在保持 PLMs 参数完整性的情况下,有效地将其与不同的视觉语言任务相结合。经过广泛的实验验证,DVP 在效率和性能方面都具有优势,并且能够很好地适应预训练语言模型与 VL 任务相结合的需求。
Jun, 2023
我们在第一次研究中探索了用于 VLN 任务的 PETL 方法,并提出了一种名为 VLN-PETL 的 VLN 特定 PETL 方法。该方法通过设计两个 PETL 模块:历史交互增强器(HIB)和跨模态交互增强器(CIB),并将其与几种现有 PETL 方法相结合,形成集成 VLN-PETL。对四个主要的 VLN 任务(R2R,REVERIE,NDH,RxR)进行的广泛实验结果表明,我们提出的 VLN-PETL 方法的有效性,它在性能上与全面微调相当甚至更好,并以有希望的优势超过其他 PETL 方法。
Aug, 2023
通过重新参数化低秩提示(RLP),我们设计了一种新型提示,用于高效和有效地适应基于视觉和语言的模型,并显著增加了传统提示调整的平均下游准确性,仅使用 0.5K 的参数。
Dec, 2023
本研究系统地探讨了在预训练语言模型(Pre-trained Language Models)规模扩大或转移方法改变时,检测样本分布变化的能力如何随之改变,着重评估了各种 PETL 技术在三个不同意图分类任务上的效果。
Jan, 2023
本文提出了一种高效的参数共享迁移学习 (PROPETL) 方法,它可以在不同层间和任务间共享单一 PETL 模块,然后使用二进制掩码选择共享的原型网络的不同子网络,并将其应用为 PETL 模块进入不同的网络层中,从而达到大幅减少模型参数及存储的效果。实验证明我们提出的模型在各种下游任务上性能优异,模型参数仅为其他 PETL 方法的约 10%。
May, 2023