ACLSep, 2017

阿拉伯语言相关分词的挑战:机器翻译和词性标注的应用

TL;DR本研究探讨用数据驱动的子字单元、字符和卷积神经网络(CNN)学习的单词嵌入来替代传统的形态学分割,实现阿拉伯语自然语言处理(NLP)中的词分割。实验表明,这些方法在机器翻译和词性标注任务中,可以达到接近或超过最先进性能。同时,研究揭示神经机器翻译系统对源和目标令牌的比值敏感,接近 1 或更大的比值有最佳性能。