对语言类型学在自然语言处理中的应用进行了调研,发现目前的语言类型数据库在系统性能提升方面存在局限性,现提出将语言的类型类别与现代自然语言处理中的机器学习算法相融合的新方法。
Jul, 2018
本研究系统地调查了涉及 “类型多样性” 的自然语言处理研究,发现并无固定的定义或标准。我们引入了几种度量标准来近似衡量语言选择的多样性,发现结果在各篇论文中差异很大。此外,我们证明了偏斜的语言选择可能导致对多语言性能的高估。我们建议未来的研究应当在 “类型多样性” 方面提供清晰的操作定义,以从经验证据上证明语言样本的多样性。
Feb, 2024
在发展自然语言处理模型中,特质信息对于低资源语言尤为重要,目前存在的大规模特质数据库在彼此之间和与其他特质信息源(如语言语法)之间存在不一致性,我们通过系统地研究不同特质数据库和资源的不一致性及其在自然语言处理中的用途,旨在为解决这个问题提供启示,同时提出连续视角的特质特征具有重要的潜力,建议从语言学的角度加以推广,认为在低资源语境下的语言建模中,这种特质视角具有重要的应用前景。
Oct, 2023
研究探讨了 NLP 工具在不同语言的应用情况以及针对语言结构差异进行的分析,指出哪些变量最影响语言建模的效果,通过计算词序和形态相似性指数等方法进行实证研究,最后通过多分类文本分类实验验证了研究结论。
Apr, 2020
本研究探讨了在跨语言依赖分析的背景下,如何利用类型学来提高性能,而我们的主要发现是将语言聚合成句法同质性群组有助于性能,而将类型维度进行组合式学习的效果并不显著。同时,考虑到所选择语料库的列统计学与类型学相一致时,性能表现也将更为出色。
Sep, 2019
利用 1017 种语言构建一个神经机器翻译系统,预测存在于语分类数据库中缺失的语言特征,实验表明该方法不仅能推测句法特征,还能推测音位、音库特征。
Jul, 2017
本研究通过英语作为第二语言文本中的结构特征和母语语言的类型学特征之间的相似性,提供了支持语言相似性跨语言转移的实证证据,并利用这一发现,在不依赖类型学资源的情况下,直接从 ESL 文本中恢复母语类型学相似性结构,并以无监督的方式执行对目标语言的类型学特征预测。我们的方法在类型学预测任务上取得了 72.2%的准确度,具有与依赖类型学资源的等效方法相当的竞争力。
Apr, 2014
本文提出了 M2C,这是一种对自然语言处理模型进行语言特征行为测试的框架,并评估了 12 种类型不同的语言在不同特征测试下的表现,结果发现 NLP 模型在英语上的表现较好,但在斯瓦希里语等语言的某些特殊语言特征测试上表现不佳,这启示我们需要发展解决这些缺陷的模型。
Jul, 2023
本文提出一种利用多语种文本预测 World Atlas of Language Structures(WALS)特征的方法,使用基于字节嵌入和卷积层构建的循环神经网络预测器,通过在 556 种语言上的测试表明一些各种语言类型的特征是可靠预测的
本文综述了自然语言处理在编程方面的研究,并从推理模型到最新竞争级模型全面调查了现有的相关工作,具有技术类别的完整性,方便查找和比较未来的工作。
Dec, 2022