现代自然语言处理的突破包括能够在 100 多种语言中执行任务的大型多语种模型。最先进的语言模型从简单的独热编码词表示开始,能够执行自然语言理解、常识推理或问答等任务,从而捕捉文本的语法和语义。同时,语言模型正在超越我们所知的语言界限,甚至在资源非常有限的濒危语言的方言中获得有竞争力的表现。然而,仍然存在一些问题,需要解决,以确保通过统一的建模空间在语言和说话者之间获得公正的文本表示。在本调研中,我们阐述了多语种文本表示的迭代进展,并讨论了最终导致当前最先进技术的推动因素。随后,我们讨论了如何实现语言民主化的全部潜力,突破所知的限制,并探讨在该领域的改进范围。
Sep, 2023
本文介绍了一种方法,通过使用来自于维基百科和共同抓取项目的大型数据,并针对 157 种语言训练高质量的词向量。此外,我们还推出了三个新的单词类比数据集,以评估这些词向量。最后,我们针对 10 种有评估数据集存在的语言对我们的预训练词向量进行了评估,显示出与以前模型相比非常强的性能。
Feb, 2018
使用多种语言 Wikipedia 来为 100 多种语言训练单词嵌入表示,并将其应用在词性标注中取得了与英语、丹麦语和瑞典语接近最新成果的表现。此外,通过单词分组的距离等方式,进一步研究了这些嵌入所捕获的语义特征,并将这些嵌入公开以帮助多语言应用的开发和增强.
Jul, 2013
本文首次观察了神经机器翻译中不断向量表示的潜在弱点,基于此提出了利用非线性词袋表示法和类型化符号来提高对源语言和目标语言的区分度,从而显著提高了神经机器翻译系统的翻译质量。
Jul, 2016
研究连续在线学习在递归神经网络语言模型中的扩展,通过每次预测后自适应地调整当前文本单元的矢量表示,实现提高语言建模精度并减少模型存储所需的计算参数。
Aug, 2015
本研究提出了两种方法,即语言嵌入体现和语言感知多头注意力,以学习信息量丰富的语言表示,从而缓解在多语言神经机器翻译模型中引导翻译的语言令牌的失效问题,并且在两个大规模多语言神经机器翻译数据集上取得了显著的性能提升。同时,进一步的语言类型学预测实验证明,我们的方法学习到的基于矩阵的语言表示可以捕捉丰富的语言类型学特征。
Sep, 2022
研究神经机器翻译模型和单语模型在表征词汇相似性和语法角色方面的性能,结果表明,神经翻译模型在捕捉概念的本体论状态方面比单语模型更胜一筹。
Oct, 2014
本研究通过定义词汇表上的一组概率分布,动态地计算这些分布上的混合权重,演示如何将基于计数的 n-gram 模型与神经 LM 结合在单个模型框架中,从而创建新颖的混合模型,并证明这些方法的优势。
Jun, 2016
本研究提出三种方法以提高跨语言表示的效果,包括将目标语言的向量空间重新对齐到源语言,去除语言特异性的均值和方差,以及通过去除形态和句子重新排序来增加跨语言相似性。研究发现,这些方法联合使用可以降低跨语言转移障碍。
Aug, 2020
本研究介绍了一种基于字符级别表示的神经机器翻译模型,该模型使用注意力机制实现从字符级别到单词级别的翻译,并具有一定的词形识别与生成能力。
Nov, 2015