通过形态学提升字符语言建模能力
本文通过对 145 个语言的 92 个圣经翻译及其更多的分类特征的分析,探讨了语言的屈折变化是否使得多语言语言建模更加困难,发现基于神经网络的语言建模方法可以通过采用 FST 等分词策略来进一步降低语言构型的影响。
Dec, 2020
对于具备丰富形态的语言,采用神经模型进行解析时,在字符级别建模具有优势,因为字符级别模型可以学习到形态学特征。通过在 12 种形态学类型不同的语言上进行实验,我们发现字符级别模型在某些情况下无法准确区分单词,特别是在面对形态学变体方面。然后,我们证明了明确定义形态学格的显式建模可以改善我们的最佳模型,表明字符级别模型可以从定向的显式形态学建模中获益。
Aug, 2018
本文研究如何利用转移学习的方法,通过训练 character-level recurrent neural taggers 的方式,使得高资源语言和低资源语言都能够正确预测 morphological taggings,成功地实现了多语言间的知识迁移,有效提高了准确性达 30%。
Aug, 2017
在低资源环境中,提出了一种用于模拟复杂形态的框架解决方案,该方案采用了双层 Transformer 架构来编码输入端的形态学信息。同时通过多标签多任务训练和基于 beam search 的解码器,提高了机器翻译性能,并使用通用形式的注意力增强方案来整合预训练语言模型和源语言和目标语言之间的词序关系建模。通过评估多种数据增强技术,提高了在低资源环境中的翻译性能,最终在基纳卢旺达语 - 英语翻译任务中取得了有竞争力的性能,希望我们的结果能够鼓励更多在低资源的神经机器翻译中使用明确的形态学信息以及所提出的模型和数据增强方法。
Apr, 2024
我们提出一种新颖的形态学感知概率模型用于双语词典归纳,该模型以结构化方式联合建模词元翻译和屈折形态学。我们的模型利用词元是意义的关键词汇单位而屈折形态学提供额外句法信息的基本语言直觉。这种方法导致了显着的性能改进 - 在监督场景和弱监督场景下,跨 6 种语言对平均准确性提高了 19% 和 16%。作为另一个贡献,我们强调现代 BLI 所面临的忽视屈折形态学的问题,并提出三个改进任务的建议。
Nov, 2020
通过将词汇学特征添加到 LSTM 和 BERT 模型中,我们比较了多种语言中命名实体识别、依赖解析和评论过滤任务的基线和改进模型表现,结果显示,根据所添加的特征的质量和任务的不同,这些特征对于 LSTM 的 NER 和 DP 任务表现提升效果较好,而不太适用于 CF 任务;对于 BERT,只有在高质量特征时才会对 DP 表现有所改善,而且相对于强大的多语言 BERT 模型,语言特异性 BERT 变体的改善程度较小。
Nov, 2020
本文分析了使用字符、单词和形态水平信息的 SRL 模型和字符级模型的性能,研究表明字符级模型比单词和形态更适合处理未知数据并具有高层次的语义分析能力。
May, 2018
通过调查计算形态学在低资源语言中的应用、提出在现有技术的基础上对原始文本进行语言形态学理解的挑战并进行实证研究,展示在设计的两个新模型的辅助下,现有的技术可以在一定程度上完成任务,但仍有很大的提升空间,解决此任务将大幅提高形态学资源的语言覆盖度。
Mar, 2022
将显式的形态学知识引入预训练阶段可以改善用于形态学丰富语言的预训练语言模型的性能,并且基于形态学驱动的分词方法相比普通的通用语言分词方法在语义和形态任务的基准测试中显示出了改进的结果,这些发现表明将形态学知识整合进预训练语言模型中具有进一步提高形态学丰富语言性能的潜力。
Nov, 2023