类型盲是否会阻碍跨语言共享?
本篇论文介绍了如何通过预测语言的语言学特征来填充 typological knowledge bases。该任务吸引了 5 支团队的 8 个提交,在最强大的系统中,特征相关性得到了应用。然而,该研究的错误分析表明,即使在一些语言的特征不确定时,即使是最优秀的系统也难以准确地预测特征值。
Oct, 2020
本文提出一种利用多语种文本预测 World Atlas of Language Structures(WALS)特征的方法,使用基于字节嵌入和卷积层构建的循环神经网络预测器,通过在 556 种语言上的测试表明一些各种语言类型的特征是可靠预测的
Apr, 2020
本研究探讨了在跨语言依赖分析的背景下,如何利用类型学来提高性能,而我们的主要发现是将语言聚合成句法同质性群组有助于性能,而将类型维度进行组合式学习的效果并不显著。同时,考虑到所选择语料库的列统计学与类型学相一致时,性能表现也将更为出色。
Sep, 2019
本研究通过英语作为第二语言文本中的结构特征和母语语言的类型学特征之间的相似性,提供了支持语言相似性跨语言转移的实证证据,并利用这一发现,在不依赖类型学资源的情况下,直接从 ESL 文本中恢复母语类型学相似性结构,并以无监督的方式执行对目标语言的类型学特征预测。我们的方法在类型学预测任务上取得了 72.2%的准确度,具有与依赖类型学资源的等效方法相当的竞争力。
Apr, 2014
本文提出了 M2C,这是一种对自然语言处理模型进行语言特征行为测试的框架,并评估了 12 种类型不同的语言在不同特征测试下的表现,结果发现 NLP 模型在英语上的表现较好,但在斯瓦希里语等语言的某些特殊语言特征测试上表现不佳,这启示我们需要发展解决这些缺陷的模型。
Jul, 2023
对语言类型学在自然语言处理中的应用进行了调研,发现目前的语言类型数据库在系统性能提升方面存在局限性,现提出将语言的类型类别与现代自然语言处理中的机器学习算法相融合的新方法。
Jul, 2018
在发展自然语言处理模型中,特质信息对于低资源语言尤为重要,目前存在的大规模特质数据库在彼此之间和与其他特质信息源(如语言语法)之间存在不一致性,我们通过系统地研究不同特质数据库和资源的不一致性及其在自然语言处理中的用途,旨在为解决这个问题提供启示,同时提出连续视角的特质特征具有重要的潜力,建议从语言学的角度加以推广,认为在低资源语境下的语言建模中,这种特质视角具有重要的应用前景。
Oct, 2023
本研究探究是否可以通过学习表示语言之间关系的语言表示来进行跨语言任务,而无需使用平行数据。使用去噪自编码器产生 29 种语言的密集嵌入,并在零样本情况下使用 WALS 和两个外部任务(跨语言依赖解析和跨语言自然语言推理)来评估嵌入。
Jun, 2021
将来自语言数据库和多语言机器翻译等任务的稀疏语言向量相结合,使用奇异向量典型相关分析方法进行研究,发现这两种方法的关联性可嵌入语言类型学和语言谱系学,实现了对多语种机器翻译的优化,而且无需大规模的多语种编排,便于新语种的测量。
Apr, 2020
我们使用基于 WALS 数据库的受限系统来预测语言类型学特征,探究了两种方法:内在于语言的特征值的相关性的计算,和基于 WALS 特征的语言嵌入预测器的训练。我们提交的系统结合了这两种方法的自我估计的置信度得分,并在测试数据上达到了 70.7%的准确度,排名该共享任务的第一名。
Oct, 2020