使用序列解码器进行形态分析
本研究提出了一种基于神经编码器解码器模型的方法,用于生成 Morphological inflection generation 任务中给定基本形式的词汇对应的特定语言变换的变形形式,并在 7 个形态丰富语言的数据集上进行评估,获得了与现有的最先进的基于变化生成的模型相比更好或可比的结果。
Dec, 2015
本文中,我们提出了一种从外向内生成序列的解码框架,该框架通过动态规划等多种训练方法,支持多种模型结构,并在推土机 2023 转换任务上取得显著提高。
May, 2023
在低资源环境中,提出了一种用于模拟复杂形态的框架解决方案,该方案采用了双层 Transformer 架构来编码输入端的形态学信息。同时通过多标签多任务训练和基于 beam search 的解码器,提高了机器翻译性能,并使用通用形式的注意力增强方案来整合预训练语言模型和源语言和目标语言之间的词序关系建模。通过评估多种数据增强技术,提高了在低资源环境中的翻译性能,最终在基纳卢旺达语 - 英语翻译任务中取得了有竞争力的性能,希望我们的结果能够鼓励更多在低资源的神经机器翻译中使用明确的形态学信息以及所提出的模型和数据增强方法。
Apr, 2024
本文通过对 145 个语言的 92 个圣经翻译及其更多的分类特征的分析,探讨了语言的屈折变化是否使得多语言语言建模更加困难,发现基于神经网络的语言建模方法可以通过采用 FST 等分词策略来进一步降低语言构型的影响。
Dec, 2020
提出利用神经编码器 - 解码器模型对形态学再生成的任务进行建模,进一步提出利用基于编辑树的输出自动校正方法,降低对训练数据量的依赖,实现了对低资源语言的形态学再生任务的优化。
Jun, 2016
本文针对神经机器翻译系统忽略词法低层级模式的问题,提出一种字符感知解码器,通过卷积神经网络结构训练,以实现针对语言词法丰富情况下的 MT 系统翻译质量提升。实验结果表明,本文方法在 14 种不同类型的语言翻译中,能够显著提升 BLEU 得分。
Sep, 2018
在小型训练集下,我们针对 neural seq2seq models 在 paradigm completion 的应用中性能低下提出了两种新方法:1. Paradigm transduction, 2. Source selection with high precision (SHIP), 在 52 种语言的基准数据集上,我们相比之前的技术水平在最高达 9.71% 的绝对准确率上实现了优异表现。
Sep, 2018
我们提出了有标签的形态学分割,这是一种统一几个任务的形态处理的替代视角。从标注角度来看,我们还引入了一种新的形态句法标签集的层次结构。最后,我们开发了 extsc {modelname},这是一个判别性的形态学分割系统,与之前的工作相反,它明确地建模了形态句法。我们展示了 extsc {modelname} 在六种语言的三个任务上的改进表现:(i)形态学分割,(ii)词干提取和(iii)形态学标签分类。在形态学分割上,我们的方法相对于基准线有 2-6 个 $F_1$ 的绝对改进。
Apr, 2024
本研究提出两种新型的多任务训练方法和相应的数据增强方法,应用于 Mexican polysynthetic 语言的形态分割,提高了神经基线的性能,同时探索了跨语言转移作为第三种加强神经模型的方法,表明在维持可比性甚至性能提高的同时,可以训练一个多语言模型来减少约 75% 的参数数量,将我们的形态分割数据集提供给 Mexicanero,Nahuatl,Wixarika 和 Yorem Nokki 用于未来研究。
Apr, 2018