跨语言低资源形态分割中基于数据驱动的模型泛化性研究

ACLJan, 2022

跨语言低资源形态分割中基于数据驱动的模型泛化性研究

Data-driven Model Generalizability in Crosslinguistic Low-resource Morphological Segmentation

Zoey Liu, Emily Prud'hommeaux

TL;DR该研究旨在通过使用多种语言的数据，比较不同参数设置下的模型表现，从而证明模型通用性取决于数据集的特征而不只是数据集的大小。

Abstract

Common designs of model evaluation typically focus on monolingual settings, where different models are compared according to their performance on a single data set that is assumed to be representative of all possible data for the task at hand. While this may be reasonable for a large d

model evaluation low-resource scenarios crosslinguistic morphological segmentation data set size

发现论文，激发创造

数据分区策略对模型泛化性能的影响：形态分割案例研究

本研究在 19 种语言中使用数据，包括 10 种土著或濒危语言，在多样的形态系统（多合一的、融合的和粘着的）和不同的数据可用性下，以不同大小的训练和评估集的组合以及新的测试数据进行大规模实验，结果显示：（1）从随机拆分训练的模型能够取得更高的数值分数；（2）从随机拆分导出的模型排名倾向于更加一致地推广。

Apr, 2024

应对规范分割的低资源挑战

本文探讨了在训练数据有限的情况下，如何将单词分割为标准化的语素，提出了两种新的模型：LSTM 指针生成器和带有硬单调注意力的序列到序列模型，并在德语、英语、印度尼西亚语、波波卢卡语和特佩瓦语进行了实验。结果显示，在低资源情境下，这些新颖的方法比现有方法在所有语言上的准确度都高出 11.4%。然而，在真正的低资源语言波波卢卡语和特佩瓦语中，最好的模型仅获得了 37.4% 和 28.4% 的准确度，因此我们总结出标准化分割仍然是低资源语言中的一个具有挑战性的任务。

Oct, 2020

一个濒危语言文献记录环境中的词素标注稳健泛化策略

资源受限环境中的普适性对于训练数据仅能代表可能文本分布的一小部分的情况尤为重要。我们通过评估形态标记模型在未见文本类型上的性能来研究其是否能够普遍化，并且尝试着采用权重衰减优化、输出去噪和迭代伪标签等策略来弥合在分布和非分布数据上的性能差距，在包含来自未见文本类型的测试集上实现了 2% 的提升。所有实验都是使用乌斯潘蒂克玛雅语编写的文本进行的。

Nov, 2023

探索语言揭示词形概括

跨语言计算建模的形态变化研究通常采用与语言无关的数据分割算法。本文采用特定语言的探测器来测试形态变化的一些普遍规律。通过在英语、西班牙语和斯瓦希里语这三种形态学上有明显区别的语言上测试这些探测器，我们发现了三种主要的形态变化系统在屈折类和特征集上都采用了不同的普遍规律策略，无论是在拼写还是在音标输入上。

Oct, 2023

所有语言的语言模型难度是否相同？

本文使用翻译文本开发了一种公平的跨语言语言模型比较方法，在 21 种语言中展示了复杂的屈折形态是导致不同语言性能差异的原因。

Jun, 2018

以字节衡量跨语言转移

通过实验证实，多语言预训练可以在源语言和目标语言之间进行跨语言迁移，且不仅语言污染和语言近似性是影响迁移的因素，还有一种语言无关的知识组件，可以用于跨语言迁移和知识传递。

Apr, 2024

超越静态模型和测试集：在任务和语言间评测预训练模型的潜力

本文提出了一种利用语言数据和语言类型学特征来预测跨语种语言模型性能的方法，以此取代传统基于翻译的方法评估系统，该方法表现良好并且能够可靠地估计模型在不同语言上的表现。

May, 2022

针对多合成极低资源语言的神经形态分割模型加强

本研究提出两种新型的多任务训练方法和相应的数据增强方法，应用于 Mexican polysynthetic 语言的形态分割，提高了神经基线的性能，同时探索了跨语言转移作为第三种加强神经模型的方法，表明在维持可比性甚至性能提高的同时，可以训练一个多语言模型来减少约 75% 的参数数量，将我们的形态分割数据集提供给 Mexicanero，Nahuatl，Wixarika 和 Yorem Nokki 用于未来研究。

Apr, 2018

零样本跨语言迁移的泛化度量

在跨语言零样本设置中，探索了一组有效且可靠的度量，以计算语言模型的泛化能力相关信息，并提出了一种稳定的算法来可靠计算模型最优解的锋利度与泛化之间的相关性。

Apr, 2024

多语言语言模型中跨语言知识迁移评估的分析

通过实验证明多语言模型具有零 - shot 跨语言知识转移的能力并且在下游任务中表现出较高性能，但我们对当前评估基准和设置是否能准确衡量零 - shot 跨语言知识转移产生了质疑。本研究通过引入更具挑战性的多语言实例设置，表明多语言模型的高性能在很大程度上归因于不需要传递实际语言知识的因素，如任务和表面层知识。我们观察到跨语言传递的主要是数据工件和偏见，尤其是对于资源有限的语言。我们的发现凸显了现有跨语言测试数据和评估设置的缺点，呼吁对多语言模型的跨语言能力有更细致的理解。

Feb, 2024