移动键盘输入中的复合处理
本论文研究了如何在语言的概率模型中考虑单词的子结构。从单词的形态学基本概念出发,提出了三种不同类型的语言模型。在 n 元语言模型中,提出了一种基于复合词分解的 Bayesian 模型,还开发了一种新的分布式语言模型。在这两种情况下,论文表明考虑单词的子结构可以提高模型性能和机器翻译的质量。此外,我们还探讨了一些可以自动学习语言词根及语言特征的模型。这些方法应用在闪族语言上表现出更好的结果。
Aug, 2015
本文提出用双向循环神经网络替代 NMT 源语言嵌入层,在任何所需的粒度水平上生成组合表示,从而解决基于统计的分词方法中可能导致的形态错误,实现了从字符 N-gram 组成词表示的 NMT 训练方法的一致逆袭。
May, 2018
提出了一种利用音节和词素衍生的嵌入来弥补粘着语言中的词汇外问题的方法,该模型比具有 9.50M 参数的字符级嵌入在困惑度上表现出色 16.87。所提出的方法在键击节省方面实现了现有输入预测方法的最新性能,并已商业化。
Aug, 2017
本论文提出了一种可扩展的方法,将组成形态学表示集成到基于向量的概率语言模型中,并在语言模型因词汇而被适当地实现以实现内部和外部评估,在一些语言上进行实验研究并展示结果,表明我们的模型学习了形态学表示,在词相似性任务上表现出色且使困惑度大幅降低,用于转化大词汇量的形态丰富语言时,我们的模型相对于使用回退 N-gram 模型的基线系统,可以获得高达 1.2 的蓝点改进。
May, 2014
本文旨在通过构建一个数据集研究跨语言中的复合词问题,发现基于大型语言模型的分解表现不佳,并提出了一种分解训练方法 —— 完全自我监督的训练方法,成功地构建了一种更好的分解模型,同时使用 CompundPiece 对复合词进行分词更佳。
May, 2023
本文提出了一种通过分层潜在变量模拟词态变化过程的方法,通过组合两个潜在表示(一个连续的表示和一组(近似)离散特征),逐个字符生成单词,从而使神经机器翻译在三种形态丰富的语言中的精度和资源利用率得到了提高。
Oct, 2019
本文介绍了 Igbo 语言文本的特殊形式 —— 复合词的分析,并通过单词 N-Gram 模型描述其表示形式,以便在任何基于文本的应用程序中得到准确的呈现和更好的效果,特别是包括情境与单词顺序。
Sep, 2020
提出一种自动设计和实现移动设备上用于打字拉丁字母表书写低资源语言键盘布局的方法,用此方法可以降低在线沟通和协作的技术门槛,从而促进更多网页内容的创作。
Jan, 2019
本文提出了使用字符和形态级别单词分解学习单词表示的若干结构,并将这些表示法纳入一种新颖的机器翻译模型中,通过一个硬注意力机制联合学习单词对齐和翻译,从而提高 morphologically rich languages 翻译成英语的机器翻译的性能,相对强基线模型提高了 1 到 1.5 个 BLEU 分数。
Jun, 2016
通过量化语言单词和片段级别的形态学来降低整体语言严格形态类型的刻板印象,测试了无监督和监督的形态分割方法,并提出了一种半自动的融合方法,探讨了机器翻译质量与合成和融合程度之间的关系,并在英语、德语、土耳其和西班牙语上进行了实验。
May, 2022