在发展自然语言处理模型中,特质信息对于低资源语言尤为重要,目前存在的大规模特质数据库在彼此之间和与其他特质信息源(如语言语法)之间存在不一致性,我们通过系统地研究不同特质数据库和资源的不一致性及其在自然语言处理中的用途,旨在为解决这个问题提供启示,同时提出连续视角的特质特征具有重要的潜力,建议从语言学的角度加以推广,认为在低资源语境下的语言建模中,这种特质视角具有重要的应用前景。
Oct, 2023
对语言类型学在自然语言处理中的应用进行了调研,发现目前的语言类型数据库在系统性能提升方面存在局限性,现提出将语言的类型类别与现代自然语言处理中的机器学习算法相融合的新方法。
Jul, 2018
研究探讨了 NLP 工具在不同语言的应用情况以及针对语言结构差异进行的分析,指出哪些变量最影响语言建模的效果,通过计算词序和形态相似性指数等方法进行实证研究,最后通过多分类文本分类实验验证了研究结论。
Apr, 2020
我们学习了分布式语言表述的方法,可以用来预测语言在不同类型水平和 NLP 模型中的相似性,进而预测 WALS 中的语言类型特征。
Feb, 2018
本文介绍了一种使用计算模型发现语言基础规律的方法,其表现优于以往的基线模型,成功识别了已知的 Greenberg 大一统规律,同时还发现了有待进一步研究的新规律。
Jun, 2019
本研究系统地调查了涉及 “类型多样性” 的自然语言处理研究,发现并无固定的定义或标准。我们引入了几种度量标准来近似衡量语言选择的多样性,发现结果在各篇论文中差异很大。此外,我们证明了偏斜的语言选择可能导致对多语言性能的高估。我们建议未来的研究应当在 “类型多样性” 方面提供清晰的操作定义,以从经验证据上证明语言样本的多样性。
Feb, 2024
该研究描述了一种分析南美洲语言的拓扑形状的工作流程,通过应用多重对应分析技术和拓扑数据分析方法,解决了语言学中普遍存在的分类值数据库数据可视化困难的问题。
Mar, 2024
使用依赖通用模式的强大重排序方法,能从少量的标注数据中学习到依赖语法上下文的精细词序模式,并在所有语法树的层级上应用,通过实验验证在零样本和少样本场景下相比强基准模型始终有优势。
本文提出一种利用多语种文本预测 World Atlas of Language Structures(WALS)特征的方法,使用基于字节嵌入和卷积层构建的循环神经网络预测器,通过在 556 种语言上的测试表明一些各种语言类型的特征是可靠预测的
本研究探讨了在跨语言依赖分析的背景下,如何利用类型学来提高性能,而我们的主要发现是将语言聚合成句法同质性群组有助于性能,而将类型维度进行组合式学习的效果并不显著。同时,考虑到所选择语料库的列统计学与类型学相一致时,性能表现也将更为出色。
Sep, 2019