本研究探讨了使用多层感知器(MLPs)模块是否可以进一步提高预训练语言模型(PLMs)捕捉语言信息的能力,实验结果表明 MLPs 确实可以增强 PLMs 对语言结构的理解能力。
Jan, 2024
本文主要通过对比分析神经概率语言模型和 Transformer 模型的特点,提出使用 NPLM 的本地连接层替换 Transformer 的第一自注意层,从而在三个单词级语言建模数据集上获得小而一致的困惑度降低。
Apr, 2021
通过引入分层解码器网络与中间监督任务,结合目前的 PLMs 构建了一种在语义解析任务中实现更好的性能与内在可解释性的方法。
Oct, 2022
该论文介绍了一种基于注意力池化策略和对比学习目标的方法,可以从预训练的语言模型中提取语言学特征和层次信号,用于下游任务,并在语义文本相似度和语义搜索任务中取得了显著提升。
Sep, 2022
本研究提出了一种整合预训练语言模型和神经机器翻译的方法(PiNMT),通过引入 PLM 多层转换器、嵌入融合和余弦对齐等关键组件以及分离学习率和双步训练等训练策略,实现了 PLM 与 NMT 的有效整合,提升了性能,并在 IWSLT'14 数据集上取得了最新的研究成果。
Oct, 2023
利用高层次、易于理解的概念来解释预训练语言模型的方法,通过人工标注和机器生成的概念来提取隐藏神经元,从而增强模型的鲁棒性和解释能力。
Nov, 2023
在自然语言处理领域中,基于预训练语言模型的增量学习的研究表明,现有的方法普遍低估了预训练语言模型天生的抗遗忘能力,研究者提出了一种名为 SEQ * 的简单方法,它在各项度量上与最先进的增量学习方法具有竞争力或更好的表现,并且需要较少的可训练参数和训练时间。
Dec, 2023
我们提出了一种叫做 PROOF 的模型,它通过训练任务特定的映射来解决 Vision-Language Models 在 Class-Incremental Learning 时候遗忘问题,并且通过融合多模态信息来提高模型的语义表示能力。在九个基准数据集上进行的实验表明,PROOF 达到了最先进的性能。
May, 2023
基于注意力引导的权重混合和双层优化框架,我们提出了一种用于预训练语言模型的微调方法,以解决在低资源数据集上微调模型时的不稳定性和过拟合问题,在广泛的实验中验证了该方法的有效性和优越性。
Mar, 2024
本文提出使用主动遗忘机制作为预训练过程中的一种简单方法,以创建能够快速适应新语言的 PLMs。实验证明,与标准模型相比,在资源匮乏的情况下,使用遗忘机制的预先训练模型不仅在语言适应过程中表现出更快的收敛速度,而且在特别是对于与英语不同的语言来说表现更佳。
Jul, 2023