学生学习机制

Jul, 2023

Pupil Learning Mechanism

Rua-Huan Tsaih, Yu-Hang Chien, Shih-Yi Chien

TL;DR该研究通过瞳孔学习过程提出了瞳孔学习机制（PLM），用于修改两层神经网络的网络结构和权重，并通过实验证实了 PLM 模块的设计以及 PLM 模型在铜价预测中的优越性。

Abstract

Studies on artificial neural networks rarely address both vanishing gradients and overfitting issues. In this study, we follow the pupil l

artificial neural networks vanishing gradients overfitting pupil learning mechanism network structure

发现论文，激发创造

MLP 指南针：当 MLP 与 PLM 相结合时学到了什么？

本研究探讨了使用多层感知器（MLPs）模块是否可以进一步提高预训练语言模型（PLMs）捕捉语言信息的能力，实验结果表明 MLPs 确实可以增强 PLMs 对语言结构的理解能力。

Jan, 2024

重新审视简单的神经概率语言模型

本文主要通过对比分析神经概率语言模型和 Transformer 模型的特点，提出使用 NPLM 的本地连接层替换 Transformer 的第一自注意层，从而在三个单词级语言建模数据集上获得小而一致的困惑度降低。

Apr, 2021

使用语义锚点揭示 PLMs 的黑匣子：走向可解释的神经语义解析

通过引入分层解码器网络与中间监督任务，结合目前的 PLMs 构建了一种在语义解析任务中实现更好的性能与内在可解释性的方法。

Oct, 2022

不要以最后一层来评估语言模型：分层注意力池化对比学习

该论文介绍了一种基于注意力池化策略和对比学习目标的方法，可以从预训练的语言模型中提取语言学特征和层次信号，用于下游任务，并在语义文本相似度和语义搜索任务中取得了显著提升。

Sep, 2022

将预训练语言模型整合到神经机器翻译中

本研究提出了一种整合预训练语言模型和神经机器翻译的方法（PiNMT），通过引入 PLM 多层转换器、嵌入融合和余弦对齐等关键组件以及分离学习率和双步训练等训练策略，实现了 PLM 与 NMT 的有效整合，提升了性能，并在 IWSLT'14 数据集上取得了最新的研究成果。

Oct, 2023

通过概念瓶颈解读预训练语言模型

利用高层次、易于理解的概念来解释预训练语言模型的方法，通过人工标注和机器生成的概念来提取隐藏神经元，从而增强模型的鲁棒性和解释能力。

Nov, 2023

学习还是回忆？再探基于预训练语言模型的增量学习

在自然语言处理领域中，基于预训练语言模型的增量学习的研究表明，现有的方法普遍低估了预训练语言模型天生的抗遗忘能力，研究者提出了一种名为 SEQ * 的简单方法，它在各项度量上与最先进的增量学习方法具有竞争力或更好的表现，并且需要较少的可训练参数和训练时间。

Dec, 2023

视觉语言模型的无遗忘学习

我们提出了一种叫做 PROOF 的模型，它通过训练任务特定的映射来解决 Vision-Language Models 在 Class-Incremental Learning 时候遗忘问题，并且通过融合多模态信息来提高模型的语义表示能力。在九个基准数据集上进行的实验表明，PROOF 达到了最先进的性能。

May, 2023

预训练语言模型在低资源文本上的泛化和稳定调优

基于注意力引导的权重混合和双层优化框架，我们提出了一种用于预训练语言模型的微调方法，以解决在低资源数据集上微调模型时的不稳定性和过拟合问题，在广泛的实验中验证了该方法的有效性和优越性。

Mar, 2024

通过主动遗忘预训练以提高语言可塑性

本文提出使用主动遗忘机制作为预训练过程中的一种简单方法，以创建能够快速适应新语言的 PLMs。实验证明，与标准模型相比，在资源匮乏的情况下，使用遗忘机制的预先训练模型不仅在语言适应过程中表现出更快的收敛速度，而且在特别是对于与英语不同的语言来说表现更佳。

Jul, 2023