形态变化的语境化
本文通过实证研究,考察了在六种不同的语言上,使用不同的形态学特征开发上下文词形还原器对下游表现的影响,并发现:(i)为词形还原器提供细粒度的形态学特征在训练时并不那么有益,即使对于词汇连接语言;(ii)实际上,现代上下文词表示似乎隐式地编码了足够的形态信息,以获得无需查看任何明确形态信号的良好上下文词形还原器;(iii)最佳的领域外词形还原器是使用简单的 UPOS 标签或者没有训练形态学的模型;(iv)目前的词形还原评估实践并不足以清晰地区分模型之间的差异。
Feb, 2023
本研究探索了通过不同方式获取亚字符音韵特征对形态学模型、尤其是重音和分析的效果,通过语言特定的语法从标准文字数据中引出音素数据,并用两种重音模型在八种语言中进行实验。
Jun, 2023
论文提出了一种模块化框架,可以用来在神经机器翻译中灵活地应用语言学知识和不同类型的神经机器翻译模型,特别是设计了用于领域适应和低资源机器翻译设置的英德医疗和英立新闻测试套件,结果表明,我们的基于规则的屈折模块比神经模块更准确地引入了引文限制,并且在低成本的训练下优于现有的端到端方法。
Sep, 2021
本文提出了一种通过分层潜在变量模拟词态变化过程的方法,通过组合两个潜在表示(一个连续的表示和一组(近似)离散特征),逐个字符生成单词,从而使神经机器翻译在三种形态丰富的语言中的精度和资源利用率得到了提高。
Oct, 2019
该研究以 CoNLL-SIGMORPHON 2017 共享任务为基础,使用监督型形态生成技术在 52 种语言上进行训练和测试,结果表明神经序列到序列模型能够在小训练数据集上取得高性能,但由于不同偏置和数据增强策略导致预测的屈折形式集合不一,因此仍需要进一步的改进措施。
Jun, 2017
SIGMORPHON 2019 共享任务关注跨语言转移和上下文形态学分析,研究传递学习和上下文词形还原在 66 种语言中的应用,同时在 100 种语言对中考察了词缀的转移,所有的提交中都具备了神经元件。
Oct, 2019
本文提出一种方法,使用来自 UniMorph 项目的屈折表和来自 Wikipedia 的原始文本示例来训练上下文敏感的词形归并器,以在低资源语言环境中提高效率和性能。
Apr, 2019
本文研究机器翻译中针对形态丰富的目标语言面临的挑战以及采用词元标记策略和语言学知识进行目标语言语言建模的实验,结果表明词汇量限制、语法一致性和语言关联性问题仍然是机器翻译需要解决的重要问题。
Mar, 2022