Feb, 2023

关于词形信息在上下文词形还原中的作用

TL;DR本文通过实证研究,考察了在六种不同的语言上,使用不同的形态学特征开发上下文词形还原器对下游表现的影响,并发现:(i)为词形还原器提供细粒度的形态学特征在训练时并不那么有益,即使对于词汇连接语言;(ii)实际上,现代上下文词表示似乎隐式地编码了足够的形态信息,以获得无需查看任何明确形态信号的良好上下文词形还原器;(iii)最佳的领域外词形还原器是使用简单的UPOS标签或者没有训练形态学的模型;(iv)目前的词形还原评估实践并不足以清晰地区分模型之间的差异。