特征坍塌

May, 2023

Feature Collapse

Thomas Laurent, James H. von Brecht, Xavier Bresson

TL;DR本文研究了一种叫做特征坍塌的现象，即在学习任务中，扮演相似角色的元素会获得类似的表达方式，其中 LayerNorm 等规范化机制在特征坍塌和泛化中扮演着关键作用。通过在 NLP 任务中进行实验，证明了特征坍塌与泛化密切相关，并且在大样本极限下，相同角色的不同单词在神经网络中获得相同的局部特征表达。

Abstract

We formalize and study a phenomenon called feature collapse that makes precise the intuitive idea that entities playing a similar role in a learning task receive similar representations. As feature collapse requi

feature collapse nlp generalization neural network normalization mechanisms

发现论文，激发创造

粗到细：自然语言理解的分层多任务学习

通过三种不同的角度（数据属性、手工设计和基于模型的相关性）分析任务相关性，本文提出了一种层次框架并使用粗粒度到细粒度的范式，使模型从所有任务中学习基本语言属性，提高相关任务的性能，并减少不相关任务的负面影响。

Aug, 2022

使用宇宙、群组和任务特征学习的多任务网络

通过自然的相关任务分组，结合多任务学习方法，将监督信息编码到模型中，探索并实现了两种神经网络结构，分别在不同层级学习不同的特征空间，并在自然语言理解中取得了显著的性能提升。

Jul, 2019

基于双层 ReLU 神经网络的可证明多任务表示学习

通过简单的梯度下降学习算法，在二层 ReLU 神经网络中进行多任务学习，可证明在多任务学习中也发生了特征学习。

Jul, 2023

实体和关系抽取中的情境化和泛化

本文主要研究了最新的自然语言处理技术中，神经网络和语言模型在命名实体识别和关系抽取方面的应用以及它们在训练过程中面临的一些挑战。我们发现，预训练的语言模型对发现未曾见过的命名实体表现良好，但对于未曾见过的关系则有待加强，因此模型的理解能力仍存在提升空间。

Jun, 2022

语言嵌入有时包含类型学概括

在 1295 种语言的大规模多语言数据集中训练神经网络模型，以研究神经模型对于语言结构所能学习到的广义化程度，发现神经网络模型在语言结构的广义化方面的表现并不好，并会存在误报，但有些表现仍然与语言学中的传统特征非常接近，为了鼓励在这个领域的持续研究，我们发布了多个资源，包括语言表示的多重集合、多语言单词嵌入、映射和预测的语法和形态特征以及提供语言表征的具有语言学意义的评估软件。

Jan, 2023

上下文化语言模型中的否定、协同和量词

本文探讨了上下文化的语言模型及其内部机制，尤其关注其对虚词的语义学约束和周围环境的影响，研究了相应的数据集，实现了可视化的定性分析界面。

Sep, 2022

一个层次化多任务方法用于从语义任务中学习嵌入

本研究介绍了一种使用多任务学习方式训练的分层模型，在一组精心选择的语义任务上取得了最新领先的结果，包括命名实体识别、实体提及检测和关系提取，无需手工设计特征或使用外部 NLP 工具，同时在模型的底层引入归纳偏差，促使模型产生共享语义表示。

Nov, 2018

自然语言多任务：分析和提高隐藏表示的句法显著性

训练多任务自动编码器进行语言任务，分析学习到的句子隐藏表示。加入翻译和词性解码器时，表示将显着改变。使用的解码器越多，模型根据句法相似性对句子进行聚类的效果越好。通过插值句子来探索表示空间的结构，得出很多有可识别句法结构的伪英语句子。最后，我们指出了模型的一个有意思的特性：两个句子之间的差分向量可以添加到第三个具有类似特征的句子中，以有意义的方式改变它。

Jan, 2018

基于跨度关系表示的自然语言分析泛化

本文提出一种基于标记跨度和跨度之间关系的统一格式的思想，成功应用于语法、语义、信息内容，情感等多种自然语言处理任务，其结构化的方法能将不同任务转化为相同的格式，同时得到较高的性能表现，并提出多任务学习的优势。最后作者将各数据转换为统一格式来建立一个基准测试，提供了一个综合的测试平台，用于评估未来模型对于通用自然语言处理的表现。

Nov, 2019

预训练语言模型中的记忆与泛化

本研究通过研究先进的预训练语言模型在嘈杂和低资源环境下的一般化和记忆能力，发现这些模型的训练对标签噪声几乎没有影响，但并不适用于低资源任务，而基于原型网络的扩展则能提高识别低资源命名实体时的性能。

Apr, 2021