本研究提出通过元学习的方式,以较少的语言资源解决形态学词形变化的任务。研究发现,将数据作为元参数,可以作为引导资源匮乏语言微调的强大初始化点。通过 29 个目标语言的实验,该方法表现出优异的性能,比之前提出的跨语言转移模型提高了 31.7% 的绝对精度,并且平均比之前的最优方法提高了 1.7% 的绝对准确度。
Apr, 2020
在低资源环境中,提出了一种用于模拟复杂形态的框架解决方案,该方案采用了双层 Transformer 架构来编码输入端的形态学信息。同时通过多标签多任务训练和基于 beam search 的解码器,提高了机器翻译性能,并使用通用形式的注意力增强方案来整合预训练语言模型和源语言和目标语言之间的词序关系建模。通过评估多种数据增强技术,提高了在低资源环境中的翻译性能,最终在基纳卢旺达语 - 英语翻译任务中取得了有竞争力的性能,希望我们的结果能够鼓励更多在低资源的神经机器翻译中使用明确的形态学信息以及所提出的模型和数据增强方法。
Apr, 2024
提出一种基于形态学的低资源依存解析方法,在目标低资源语言中训练形态变化器,并将其应用于相关的富资源树库以创建类似于目标低资源语言的跨语言折叠树库。使用这样的折叠树库在零(在折叠的树库上训练)和少量样本(在折叠和目标语言树库上训练)设置中训练解析器。结果表明该方法有时会改善基线,但不是一致的。
May, 2022
使用基于词元的训练 - 测试分割方法重新评估形态学屈折模型,结果表明对于不同的语言模型的泛化性能有着不同程度的影响,尤其对于低资源语言的影响更大。
Aug, 2021
该研究使用少量标记的数据引导标注词形变化,利用不同类型的规律,通过类比词标记和距离对词配对,证明了手工标记许多示例可能是不必要的。
Apr, 2021
研究分析了词形变化在子词 NLP 中的高性能和高可变性的原因,提出了更好反映实际使用情况的数据采样和评估策略,探讨了当前变形系统的泛化能力。
May, 2023
论文提出了一种模块化框架,可以用来在神经机器翻译中灵活地应用语言学知识和不同类型的神经机器翻译模型,特别是设计了用于领域适应和低资源机器翻译设置的英德医疗和英立新闻测试套件,结果表明,我们的基于规则的屈折模块比神经模块更准确地引入了引文限制,并且在低成本的训练下优于现有的端到端方法。
Sep, 2021
本研究探索了通过不同方式获取亚字符音韵特征对形态学模型、尤其是重音和分析的效果,通过语言特定的语法从标准文字数据中引出音素数据,并用两种重音模型在八种语言中进行实验。
Jun, 2023
通过调查计算形态学在低资源语言中的应用、提出在现有技术的基础上对原始文本进行语言形态学理解的挑战并进行实证研究,展示在设计的两个新模型的辅助下,现有的技术可以在一定程度上完成任务,但仍有很大的提升空间,解决此任务将大幅提高形态学资源的语言覆盖度。
Mar, 2022
本文研究机器翻译中针对形态丰富的目标语言面临的挑战以及采用词元标记策略和语言学知识进行目标语言语言建模的实验,结果表明词汇量限制、语法一致性和语言关联性问题仍然是机器翻译需要解决的重要问题。