跨语言低资源形态分割中基于数据驱动的模型泛化性研究
本研究在 19 种语言中使用数据,包括 10 种土著或濒危语言,在多样的形态系统(多合一的、融合的和粘着的)和不同的数据可用性下,以不同大小的训练和评估集的组合以及新的测试数据进行大规模实验,结果显示:(1)从随机拆分训练的模型能够取得更高的数值分数;(2)从随机拆分导出的模型排名倾向于更加一致地推广。
Apr, 2024
本文探讨了在训练数据有限的情况下,如何将单词分割为标准化的语素,提出了两种新的模型:LSTM 指针生成器和带有硬单调注意力的序列到序列模型,并在德语、英语、印度尼西亚语、波波卢卡语和特佩瓦语进行了实验。结果显示,在低资源情境下,这些新颖的方法比现有方法在所有语言上的准确度都高出 11.4%。然而,在真正的低资源语言波波卢卡语和特佩瓦语中,最好的模型仅获得了 37.4% 和 28.4% 的准确度,因此我们总结出标准化分割仍然是低资源语言中的一个具有挑战性的任务。
Oct, 2020
资源受限环境中的普适性对于训练数据仅能代表可能文本分布的一小部分的情况尤为重要。我们通过评估形态标记模型在未见文本类型上的性能来研究其是否能够普遍化,并且尝试着采用权重衰减优化、输出去噪和迭代伪标签等策略来弥合在分布和非分布数据上的性能差距,在包含来自未见文本类型的测试集上实现了 2% 的提升。所有实验都是使用乌斯潘蒂克玛雅语编写的文本进行的。
Nov, 2023
跨语言计算建模的形态变化研究通常采用与语言无关的数据分割算法。本文采用特定语言的探测器来测试形态变化的一些普遍规律。通过在英语、西班牙语和斯瓦希里语这三种形态学上有明显区别的语言上测试这些探测器,我们发现了三种主要的形态变化系统在屈折类和特征集上都采用了不同的普遍规律策略,无论是在拼写还是在音标输入上。
Oct, 2023
通过实验证实,多语言预训练可以在源语言和目标语言之间进行跨语言迁移,且不仅语言污染和语言近似性是影响迁移的因素,还有一种语言无关的知识组件,可以用于跨语言迁移和知识传递。
Apr, 2024
本文提出了一种利用语言数据和语言类型学特征来预测跨语种语言模型性能的方法,以此取代传统基于翻译的方法评估系统,该方法表现良好并且能够可靠地估计模型在不同语言上的表现。
May, 2022
本研究提出两种新型的多任务训练方法和相应的数据增强方法,应用于 Mexican polysynthetic 语言的形态分割,提高了神经基线的性能,同时探索了跨语言转移作为第三种加强神经模型的方法,表明在维持可比性甚至性能提高的同时,可以训练一个多语言模型来减少约 75% 的参数数量,将我们的形态分割数据集提供给 Mexicanero,Nahuatl,Wixarika 和 Yorem Nokki 用于未来研究。
Apr, 2018
通过实验证明多语言模型具有零 - shot 跨语言知识转移的能力并且在下游任务中表现出较高性能,但我们对当前评估基准和设置是否能准确衡量零 - shot 跨语言知识转移产生了质疑。本研究通过引入更具挑战性的多语言实例设置,表明多语言模型的高性能在很大程度上归因于不需要传递实际语言知识的因素,如任务和表面层知识。我们观察到跨语言传递的主要是数据工件和偏见,尤其是对于资源有限的语言。我们的发现凸显了现有跨语言测试数据和评估设置的缺点,呼吁对多语言模型的跨语言能力有更细致的理解。
Feb, 2024