利用适配器实现句子嵌入的高效领域自适应
本文提出了一种使用计算有效的适配器方法在多个不同领域适应的方法,其通过冻结预先训练的语言模型并与每个节点相关联的适配器权重组合,实现相关领域之间的参数共享。GPT-2 和 C4 中最多的 100 个网站上的实验结果表明,这种方法可以全面提高领域内性能,并提供了一种推理时间算法来推出新领域的泛化性能,同时只能增加成本。
Dec, 2021
通过在大规模预训练语言模型中插入小的瓶颈层,我们提出了两种无监督领域自适应更加参数高效的方法,通过实验表明,我们的简单方法在自然语言推理和跨领域情感分类任务中性能良好。
Feb, 2023
本研究探讨了针对少样本句子分类的句子编码器 (SE) 的领域专用化策略,提出了 AdaSent 方法,通过在基本的预训练语言模型上训练一个 SE adapter 来解耦句子嵌入的预训练 (SEPT) 和领域自适应预训练 (DAPT),在多个数据集上证明了 AdaSent 的有效性,并大幅降低了训练成本。
Nov, 2023
针对航空领域的技术术语和非传统语法等特征,作者提出了一种两阶段的方法:使用航空文本数据进行预训练,然后使用自然语言推理数据集在 SBERT 架构上进行微调,以适应该领域并显著优于通用性转换器,突出了领域特定适应对于开发专业 NLP 解决方案的重要性。
May, 2023
该研究介绍了一种新的适应方法,使用 UniPELT 框架作为基础,并添加了 PromptTuning 层,从而在保持竞争力的同时显著减少了可训练参数的数量。该方法利用适配器实现了预训练模型向新任务的有效转移,无需重新训练基础模型参数。通过对三个不同数据集进行评估,研究结果表明,该基于适配器的方法在性能上与全模型微调、DAPT+TAPT 和 UniPELT 策略相当,而需要更少或相同数量的参数。这种参数效率不仅减轻了计算负担,还加快了适应过程。该研究强调了适配器在实现高性能以及显著节约资源消耗方面的潜力,为参数高效微调的未来研究方向提供了有益的提示。
May, 2024
通过适配器模块实现神经网络参数共享,避免针对每个任务都需要重新训练整个神经网络的问题。将适配器模块应用于 BERT Transformer 可以达到接近完全微调的性能,同时每个任务只需增加 3.6%的可训练参数,表现十分出色。
Feb, 2019
介绍了一种称为 AdapterSoup 的方法,通过对具有不同超参数的预训练语言模型适配器进行权重平均化从而提高在新领域的性能,同时使用文本聚类等方法选择哪些适配器进行组合,有效解决了在资源受限或领域特定问题下适配器训练的实践性问题。
Feb, 2023
该论文探讨了加速最近邻机器翻译的几种方法,其中介绍了一种简单但有效的缓存策略,避免了之前出现过的类似上下文的再次检索。翻译质量和运行时间表明了这些解决方案的有效性。
Apr, 2022
通过在预先训练的模型中插入轻量级适配器模块,将自监督语音模型适应到说话人验证任务中,我们提出了一个高效的适配器框架。实验结果表明,该框架在更新仅 5% 的参数的情况下,超过了微调和其他参数高效的迁移学习方法,实现了卓越的性能。
Mar, 2024