EMNLPMay, 2022

当数据过多会造成伤害:发展广覆盖自然语言理解系统的一个令人不安特性

TL;DR在自然语言理解生产系统中,由于用户需求的不断演变,需要随时间添加新特性,从而索引新符号来表示意义空间,这需要额外的训练数据并导致日益增长的数据集。在本文中,我们首次系统地研究增量符号学习场景,并展示了当训练数据集增长时,如果不相应地增加符号的训练数据,则新符号的性能通常会下降,这表明采用大型训练数据集更难以学习新的符号。而这一趋势也适用于多种主流模型的两项常见自然语言理解任务:意图识别和语义解析。我们发现这与 “数据稀释效应” 的影响密切相关,并证明了当前神经自然语言理解模型对新符号的过分依赖将会导致该趋势的逆转。