- 不含涉密术语和不必要解释的无泪 MRL 解析:以希伯来语为例
在形态丰富的语种中,通过一种新的 “翻转管道” 方法,直接在整个单词单元上进行专家分类器的决策,再综合其预测,从而在希伯来语词性标注和依存句法分析上取得了新的技术水平,并在其他希伯来语自然语言处理任务上接近最新技术水平。
- 一个真正的联合神经结构用于分割和解析
通过提供一种基于格点的表示,能够同时解决词法分割和句法分析任务的联合神经体系结构,在希伯来语等具有高度复杂性和模棱两可性的多词类语言上取得了最先进的性能。
- 明确的形态学知识对希伯来语语言模型预训练有所改善
将显式的形态学知识引入预训练阶段可以改善用于形态学丰富语言的预训练语言模型的性能,并且基于形态学驱动的分词方法相比普通的通用语言分词方法在语义和形态任务的基准测试中显示出了改进的结果,这些发现表明将形态学知识整合进预训练语言模型中具有进一步 - 探索语言相似性和零样本学习用于德拉维多语言的多语种翻译
通过利用音译和语言相似性,本研究构建了一个单一编解码器神经机器翻译系统,用于 Dravidian-Dravidian 多语言翻译和零翻译;通过限制词汇表使用优化传输技术,该模型在训练语言方向的 50%上达到了与大型基于引导的模型相差 3 个 - ACLHeGeL:希伯来文地理位置信息新数据集
本文介绍了 Hebrew Geo-Location(HeGeL)语料库,它是用于采集字面意义上的地方描述和分析语言地理空间推断的,证明数据展示了丰富的地理空间推断使用,并需要一种新的环境表示。
- HuSpaCy 中的混合还原
本文提出了一种混合词形还原器,使用神经模型、字典和手工规则的混合架构,在广泛使用的匈牙利语数据集上获得了实验结果,并发表了三种 HuSpaCy 模型。
- ACL随机选择 BPE 合并操作时有哪些变化?不多
通过引入三种简单的随机字节对编码变体并探索选择合并操作的随机化是否显著影响下游机器翻译任务,我们的研究旨在翻译形态丰富的语言,使用贝叶斯线性模型分析表明,两种变体与标准 BPE 几乎没有区别,而另一种变体的性能降低小于预期。我们得出结论,虽 - 修补 Charformer 中的漏洞,以实现高效的字符级生成
本研究提出了一种解决 Charformer 在 Transformer 解码器中信息泄漏问题的方法,从而实现字符分组。研究发现 Charformer 的下采样在 NMT 中的翻译质量没有明显的优势,但训练速度可以提高 30%,在英––土耳其 - ACL地理距离是新的超参数:寻找最佳英语 - Zulu 预训练语言的机器翻译案例研究
本研究探讨了在英 - 祖鲁语翻译框架中使用迁移学习的潜在益处。结果表明,从相关语言进行迁移学习可以提高低资源翻译模型的性能,这为未来的低资源翻译提供了关键策略。我们从 8 个不同的语料库(包括一个多语言语料库)中收集了结果,看到 isiXh - 令牌化对语言模型的影响:针对土耳其语的分析
本文研究了在土耳其语 (OSCAR corpus) 的分裂数据上,比较了不同粒度级别的分词器的性能和预训练语言模型的效果,并发现单独定制的分子级别分词器具有挑战性的表现,同时也发现增加词汇量可以提高单独定制的分子级别分词器以及使用 RoBE - 神经机器翻译中目标语言形态的建模:策略比较
本文研究机器翻译中针对形态丰富的目标语言面临的挑战以及采用词元标记策略和语言学知识进行目标语言语言建模的实验,结果表明词汇量限制、语法一致性和语言关联性问题仍然是机器翻译需要解决的重要问题。
- ACLKinyaBERT:一个考虑形态的基尼亚隆达语言模型
提出了一种两层 BERT 架构,利用形态分析器和显式表示形态构成,解决了 BERT 模型在处理形态丰富的语言时效率低下的问题,并将所提出的模型在低资源形态丰富的 Kinyarwanda 语言上进行了评估。结果表明,所提出的模型 KinyaB - 使用词性标注改进英文到锡兰语神经机器翻译
利用词性标注和位置编码来提高基础的英语到僧伽罗语神经机器翻译模型的翻译能力。
- ICLR结合预训练的高资源嵌入和子词表示用于低资源语言
研究了利用字根丰富的语言和预训练字向量相结合的方法,来提高低资源非洲语言的自然语言处理精度并在 Xhosa - 英语翻译任务中取得了最佳表现。
- ACL利用反事实数据增强来减轻语言中丰富形态学的性别刻板印象
提出一种新方法,在语法形态复杂的语言(如西班牙语和希伯来语)中将男性化和女性化的句子互相转换,以达到减少性别刻板印象的目的,同时保持语法正确性。
- ACL利用子词信息学习词表示的系统研究
本研究通过对五种语言的三个任务进行大量实验研究,发现在利用子词级别信息进行词表示学习时,不同语言和任务下,分词和组成函数等关键组件的最优配置各异。同时,我们还发现,一些无监督分词方法,如 BPE 和 Morfessor 等,有时能够和甚至超 - LINSPECTOR:用于词表示的多语言探针任务
该研究介绍了在 24 种语言中引入 15 种类型级别的探究任务,测试诸如情况标记、单词长度、形态标记计数和伪词识别等特定语法特征和语言提示的分类任务,以便探索词嵌入或黑盒神经模型的多语言语言线索,发现许多探究测试具有与子任务的显着高正相关性 - MM面向形态丰富语言的字符感知解码器
本文针对神经机器翻译系统忽略词法低层级模式的问题,提出一种字符感知解码器,通过卷积神经网络结构训练,以实现针对语言词法丰富情况下的 MT 系统翻译质量提升。实验结果表明,本文方法在 14 种不同类型的语言翻译中,能够显著提升 BLEU 得分 - ACL无监督双语词典归纳的局限性
该文研究了无监督的机器翻译模型,提出了利用对手生成网络对词嵌入空间进行自对齐和对齐生成双语词典,但对于形态丰富的语言,无监督双语词典的表现会受到很大限制,该研究通过利用弱监督从同一词来构建词典,建立了无监督双语词典表现和图相似度的相关性。
- ACL使用目标端形态信息优化基于字符的神经机器翻译解码
该研究论文提出了一种基于字符级别的神经机器翻译方法,引入了目标语言的形态信息加强解码器的性能,适用于翻译形态丰富的语言,如德语、俄语和土耳其语,并通过实验证明了其优越性。