EMNLPOct, 2023

数据集效应的状态矢量框架

TL;DR通过状态向量框架研究了深度神经网络在训练中使用的高质量数据集的影响,发现常用的语言理解数据集在少数语言维度上具有显著影响,同时观察到数据集可能在与任务无关的维度上对模型产生 “溢出” 效应,为负责任和稳健的模型开发提供了系统理解数据集影响的方法。