本文提出了无监督词形范式补全的任务,并介绍了一个通过编辑树检索、范式规模探测和屈折生成等步骤生成词态的系统,该系统在 14 个语言上得到了很好的性能。
May, 2020
提出一种针对低资源语言的自动词形变化生成方案,在神经网络方法、注意力机制、跨语言转移学习等方面做了改进并实现了 15% 的性能提升。发现了语言类别相似和通用表示是跨语言转移学习成功的关键因素。
Aug, 2019
研究分析了词形变化在子词 NLP 中的高性能和高可变性的原因,提出了更好反映实际使用情况的数据采样和评估策略,探讨了当前变形系统的泛化能力。
May, 2023
该研究以 CoNLL-SIGMORPHON 2017 共享任务为基础,使用监督型形态生成技术在 52 种语言上进行训练和测试,结果表明神经序列到序列模型能够在小训练数据集上取得高性能,但由于不同偏置和数据增强策略导致预测的屈折形式集合不一,因此仍需要进一步的改进措施。
Jun, 2017
本文介绍了一种利用神经混合图模型构建并预测词形变化的方法,并将其与传统的形态学变化或表面实现进行了比较,证明了将语言学驱动的潜在变量纳入 NLP 模型的实用性。
May, 2019
本研究探索了通过不同方式获取亚字符音韵特征对形态学模型、尤其是重音和分析的效果,通过语言特定的语法从标准文字数据中引出音素数据,并用两种重音模型在八种语言中进行实验。
Jun, 2023
本篇论文研究了对于低资源语言的狭缺数据问题,通过使用主动学习方法,基于置信度、熵等策略选择最具信息的数据进行更准确的模型训练,实验证明这种方法可以显著提高模型性能。
Oct, 2022
该研究论文研究了使用未标注的句子学习词形变化系统的范例发现问题,并通过使用词嵌入和字符串相似性对单元和范例进行聚类的方法来处理该问题。
论文提出了一种模块化框架,可以用来在神经机器翻译中灵活地应用语言学知识和不同类型的神经机器翻译模型,特别是设计了用于领域适应和低资源机器翻译设置的英德医疗和英立新闻测试套件,结果表明,我们的基于规则的屈折模块比神经模块更准确地引入了引文限制,并且在低成本的训练下优于现有的端到端方法。
Sep, 2021
使用基于词元的训练 - 测试分割方法重新评估形态学屈折模型,结果表明对于不同的语言模型的泛化性能有着不同程度的影响,尤其对于低资源语言的影响更大。
Aug, 2021