Nov, 2023

一个濒危语言文献记录环境中的词素标注稳健泛化策略

TL;DR资源受限环境中的普适性对于训练数据仅能代表可能文本分布的一小部分的情况尤为重要。我们通过评估形态标记模型在未见文本类型上的性能来研究其是否能够普遍化,并且尝试着采用权重衰减优化、输出去噪和迭代伪标签等策略来弥合在分布和非分布数据上的性能差距,在包含来自未见文本类型的测试集上实现了 2% 的提升。所有实验都是使用乌斯潘蒂克玛雅语编写的文本进行的。