本文研究如何利用转移学习的方法,通过训练 character-level recurrent neural taggers 的方式,使得高资源语言和低资源语言都能够正确预测 morphological taggings,成功地实现了多语言间的知识迁移,有效提高了准确性达 30%。
Aug, 2017
研究了词级语言标注对资源不足的神经机器翻译的影响,通过实验发现,当在源语言进行标注时,语法 - 语义描述标签在某些语言对中表现优于词性标签;但在目标语言进行标注时,词性标签在自动评估指标上始终优于语法 - 语义描述标签,尽管后者可改善输出的语法性。该研究提供了对此结果的详细分析。
Jan, 2024
在低资源环境中,提出了一种用于模拟复杂形态的框架解决方案,该方案采用了双层 Transformer 架构来编码输入端的形态学信息。同时通过多标签多任务训练和基于 beam search 的解码器,提高了机器翻译性能,并使用通用形式的注意力增强方案来整合预训练语言模型和源语言和目标语言之间的词序关系建模。通过评估多种数据增强技术,提高了在低资源环境中的翻译性能,最终在基纳卢旺达语 - 英语翻译任务中取得了有竞争力的性能,希望我们的结果能够鼓励更多在低资源的神经机器翻译中使用明确的形态学信息以及所提出的模型和数据增强方法。
Apr, 2024
本研究提出了一种基于神经网络潜在能力的因子条件随机场模型,可用于语言之间的跨领域形态标注技术,在低资源语言中展现出卓越的标注准确性。
May, 2018
零资源环境中的词性标注可以是一种有效的方法,当没有标记的训练数据可用时,特别适用于资源匮乏的语言。本文研究了使用预训练的多语言大型语言模型或在零资源目标语言中将源语言标签映射并训练序列标注模型两种主要技术进行词性标注。我们通过现成的对齐模块探索了后一种方法,并训练了一个隐马尔可夫模型来预测词性标签。我们在以英语为源语言,法语、德语和西班牙语为目标语言的词性标注中评估了转移学习设置。我们的结论是,零资源语言中的映射对于预测词性标签是有益的。
使用双向 LSTM 网络与相似度度量的对比损失函数,通过在共同空间中学习资源贫乏和资源丰富句子的表示方法,实现了情感分析和表情符预测等文本分类任务中对资源贫乏语言(如印地语和泰卢固语)和资源丰富语言(如英语和西班牙语)进行有效分类的目标。
Jun, 2018
本研究提出了一种新颖的基于跨语言词向量的神经网络模型,通过高覆盖的双语词典训练,利用跨语言模型转移的方法,针对低资源语言的注释预测问题提出了解决方案,并通过多种主动学习启发式方法,提升了该方法的性能。
May, 2017
通过多语言学习,并运用层次贝叶斯模型和马尔可夫蒙特卡洛采样技术,我们证明了在无监督词性标注中应用多语言学习的有效性,且在可用语言数量增加时,性能稳定提升。
Jan, 2014
本研究提出通过元学习的方式,以较少的语言资源解决形态学词形变化的任务。研究发现,将数据作为元参数,可以作为引导资源匮乏语言微调的强大初始化点。通过 29 个目标语言的实验,该方法表现出优异的性能,比之前提出的跨语言转移模型提高了 31.7% 的绝对精度,并且平均比之前的最优方法提高了 1.7% 的绝对准确度。
Apr, 2020
该研究使用弱监督方法训练 15 种低资源语言的最新 POS 标注器,并发现即使使用现有最佳技术,在真正的低资源语言中,该标注器仅能正确标注不到一半的单词。因此,这篇研究突出了需要新的和不同的 POS 标注方法来适应低资源语言的需求。