多语种基于普遍依存关系的词序语法类型

ACLFeb, 2024

多语种基于普遍依存关系的词序语法类型

Multilingual Gradient Word-Order Typology from Universal Dependencies

Emi Baylor, Esther Ploeger, Johannes Bjerva

TL;DR介绍了一种基于连续值数据而非分类数据的新种子数据集，可以更好地反映语言的变异性，以及用于生成更广泛特征和语言的数据的方法学。

Abstract

While information from the field of linguistic typology has the potential to improve performance on nlp tasks, reliable typological data i

linguistic typology nlp tasks typological data seed dataset word-order typology

发现论文，激发创造

自然语言处理中语言类型数据库的过去、现在和未来

在发展自然语言处理模型中，特质信息对于低资源语言尤为重要，目前存在的大规模特质数据库在彼此之间和与其他特质信息源（如语言语法）之间存在不一致性，我们通过系统地研究不同特质数据库和资源的不一致性及其在自然语言处理中的用途，旨在为解决这个问题提供启示，同时提出连续视角的特质特征具有重要的潜力，建议从语言学的角度加以推广，认为在低资源语境下的语言建模中，这种特质视角具有重要的应用前景。

Oct, 2023

语言变异和语言规律的建模：关于自然语言处理中的语言类型学调查

对语言类型学在自然语言处理中的应用进行了调研，发现目前的语言类型数据库在系统性能提升方面存在局限性，现提出将语言的类型类别与现代自然语言处理中的机器学习算法相融合的新方法。

Jul, 2018

评估基于 Transformer 的多语言文本分类

研究探讨了 NLP 工具在不同语言的应用情况以及针对语言结构差异进行的分析，指出哪些变量最影响语言建模的效果，通过计算词序和形态相似性指数等方法进行实证研究，最后通过多分类文本分类实验验证了研究结论。

Apr, 2020

从音韵学到句法：利用语言嵌入进行不同层次的无监督语言类型学研究

我们学习了分布式语言表述的方法，可以用来预测语言在不同类型水平和 NLP 模型中的相似性，进而预测 WALS 中的语言类型特征。

Feb, 2018

探索类型学知识库中的概率推论

本文介绍了一种使用计算模型发现语言基础规律的方法，其表现优于以往的基线模型，成功识别了已知的 Greenberg 大一统规律，同时还发现了有待进一步研究的新规律。

Jun, 2019

自然语言处理中的 ' 类型多样性 ' 是什么？

本研究系统地调查了涉及 “类型多样性” 的自然语言处理研究，发现并无固定的定义或标准。我们引入了几种度量标准来近似衡量语言选择的多样性，发现结果在各篇论文中差异很大。此外，我们证明了偏斜的语言选择可能导致对多语言性能的高估。我们建议未来的研究应当在 “类型多样性” 方面提供清晰的操作定义，以从经验证据上证明语言样本的多样性。

Feb, 2024

从拓扑学观点看语言学

该研究描述了一种分析南美洲语言的拓扑形状的工作流程，通过应用多重对应分析技术和拓扑数据分析方法，解决了语言学中普遍存在的分类值数据库数据可视化困难的问题。

Mar, 2024

通过子树感知词重排序来提高跨语言迁移

使用依赖通用模式的强大重排序方法，能从少量的标注数据中学习到依赖语法上下文的精细词序模式，并在所有语法树的层级上应用，通过实验验证在零样本和少样本场景下相比强基准模型始终有优势。

Oct, 2023

从文本中推断语言类型学特征：推理《世界语言结构地图》的稀疏特征

本文提出一种利用多语种文本预测 World Atlas of Language Structures（WALS）特征的方法，使用基于字节嵌入和卷积层构建的循环神经网络预测器，通过在 556 种语言上的测试表明一些各种语言类型的特征是可靠预测的

Apr, 2020

将语言类型学纳入神经依存句法分析中的挑战

本研究探讨了在跨语言依赖分析的背景下，如何利用类型学来提高性能，而我们的主要发现是将语言聚合成句法同质性群组有助于性能，而将类型维度进行组合式学习的效果并不显著。同时，考虑到所选择语料库的列统计学与类型学相一致时，性能表现也将更为出色。

Sep, 2019