当数据过多会造成伤害：发展广覆盖自然语言理解系统的一个令人不安特性

EMNLPMay, 2022

当数据过多会造成伤害：发展广覆盖自然语言理解系统的一个令人不安特性

When More Data Hurts: A Troubling Quirk in Developing Broad-Coverage Natural Language Understanding Systems

Elias Stengel-Eskin, Emmanouil Antonios Platanios, Adam Pauls, Sam Thomson, Hao Fang...

TL;DR在自然语言理解生产系统中，由于用户需求的不断演变，需要随时间添加新特性，从而索引新符号来表示意义空间，这需要额外的训练数据并导致日益增长的数据集。在本文中，我们首次系统地研究增量符号学习场景，并展示了当训练数据集增长时，如果不相应地增加符号的训练数据，则新符号的性能通常会下降，这表明采用大型训练数据集更难以学习新的符号。而这一趋势也适用于多种主流模型的两项常见自然语言理解任务：意图识别和语义解析。我们发现这与 “数据稀释效应” 的影响密切相关，并证明了当前神经自然语言理解模型对新符号的过分依赖将会导致该趋势的逆转。

Abstract

In natural language understanding (NLU) production systems, users' evolving needs necessitate the addition of new features over time, indexed by new symbols added to the meaning representation space. This requires additional training data and results in ever-growing datasets. We presen

natural language understanding incremental learning data dilution nlu models intent recognition

发现论文，激发创造

注重权衡：在不损害内部分布性能的情况下去偏向自然语言理解模型

本文介绍了一种名为置信度正则化的新型去偏方法，旨在提高自然语言理解任务模型对于越界数据的表现，同时保持对内界数据的准确度。实验表明，与之前的方法相比，该方法在提高模型对越界数据的表现方面具有更好的效果。

May, 2020

数据和模型中的顽固词汇偏见

使用新的统计方法检查模型训练过程中的假相关关系，发现即使使用了优化方法来减少数据中的偏差，训练出的模型中仍存在对标签的偏差，影响了自然语言推理和重复问题检测两个任务的性能。

Jun, 2023

自然语言理解中的去偏方法使得偏见更容易被接受

通过提出一种基于探究的框架，研究了自然语言理解中的偏见修正方法。结果表明，推迟偏见的方法会导致更多的偏见被编码到模型的内部表示中。

Sep, 2021

减少语音训练数据需求以构建口语理解系统

本文介绍了一种使用少量的语音数据和大量的文本数据结合的方法，可以有效地构建端到端的语音理解系统，并在句意和实体两个任务上得到了验证，最终得出该方法可以在仅使用文本数据进行训练的情况下，达到与使用全部语音数据进行训练的系统性能相近的结果。

Feb, 2022

神经语言模型中，数量不代表语法质量

本论文研究了增加神经网络大小和训练语料对于缓解基于循环神经网络的语言模型中存在的语法复杂性问题的作用。研究发现，增加网络大小和扩展语料对于缓解该问题的效果都有限，而与基于 Transformer 的模型 GPT 和 BERT 相比，LSTM 模型在某些结构下表现更好。因此，本研究倡导更为数据高效的神经网络结构。

Aug, 2019

通过建模语料库中的偏见进行端到端偏见缓解

本文提出了两种学习策略来训练神经模型，更加稳健，并且更能够迁移到域外的数据集。这些策略利用了数据集的偏差，通过 down-weighting 有偏差的例子，使基础模型减少对偏差的依赖。实验表明，我们的去偏差方法在所有设置中都显著提高了模型的稳健性，并且更好地迁移到其他文本蕴涵数据集上。

Sep, 2019

基于动态数据过滤的训练可能不适用于自然语言处理数据集

探讨了使用 Area Under the Margin（AUM）度量方法来识别和去除 / 修正自然语言处理数据集中错误标记的样本，表明该方法可以滤除 NLP 数据集中的错误标记，但也会去除大量正确标记点并导致大量相关语言信息的丧失。模型依靠分布信息而非依赖句法和语义表示。

Sep, 2021

针对自然语言理解模型的捷径学习行为进行解释和缓解

本文研究表明，NLU 模型倾向于依赖于快捷特征进行预测，而不是真正理解语言。我们发现 NLU 训练集中的单词可以被建模为长尾分布，进一步提出了一种量化每个训练样例快捷程度的方法，并基于此提出了一个缓解快捷特征对模型训练的影响的框架 LTGR，实验结果表明这种方法可以提高模型对 OOD 数据的泛化能力，同时保持在分布数据上的准确性。

Mar, 2021

缓解大型语言模型的数据稀缺问题

本文研究了使用数据增强和神经集成学习技术来减轻预训练神经语言模型在医学或低资源语言等特定领域中的数据稀缺问题。实验结果表明，这些简单有效的解决方案可以显著提高这些领域下神经语言模型的性能。

Feb, 2023

随着更大的模型和更长的训练，词汇泛化能力提高

该研究分析了自然语言推理、释义检测和阅读理解中词汇重叠启发式的使用，发现更大的模型较不容易采用词汇重叠启发式，并且更长的训练会导致模型放弃使用词汇重叠启发式，最后提供证据表明模型大小差异的根源在于预训练模型。

Oct, 2022