May, 2023

自动形态学变化中组合式数据增强的理解

TL;DR本研究探讨了数据增强策略 StemCorrupt 的理论方面,揭示其底层数据分布的内在组合结构,并研究了 StemCorrupt 的数据效率和语言类型学特征对增强策略的影响。实验结果表明,选择高多样性和高预测不确定性的数据点可以显著提高 StemCorrupt 的数据效率,但对于包含非级联属性的语言,如形态变化,会引入音韵规则违反而降低表现。