EMNLPNov, 2023

更好的组合泛化数据因子

TL;DR通过对不同数据因素(包括数据集规模、模式复杂度和示例难度等)的多样化训练集进行实证分析,本研究发现增加数据集复杂性有助于提高模型在多个不同泛化挑战上的泛化行为,并且展示了更复杂的数据集提供更多样化示例以增强组合性理解效果,并减少示例的重复频率以避免不可泛化的记忆,同时强调了简单示例在合成数据集上引发比复杂示例更强的组合性,而在更大规模的真实语言数据集上,简单和复杂示例的平衡混合能够诱导出最强的泛化能力。