- COLING方言间的音韵复杂度
通过对荷兰方言和闽方言的微观研究,我们在方言层面上发现了词长和音韵复杂性之间的权衡关系,并使用 LSTM 基于电话级别的语言模型得出实证证据。地理广义加性模型(GAM)表明,音韵复杂性较低的方言集中于首都地区,这与语言变体中人口较多或更多样 - 自然语言处理中的 ' 类型多样性 ' 是什么?
本研究系统地调查了涉及 “类型多样性” 的自然语言处理研究,发现并无固定的定义或标准。我们引入了几种度量标准来近似衡量语言选择的多样性,发现结果在各篇论文中差异很大。此外,我们证明了偏斜的语言选择可能导致对多语言性能的高估。我们建议未来的研 - ACL多语种基于普遍依存关系的词序语法类型
介绍了一种基于连续值数据而非分类数据的新种子数据集,可以更好地反映语言的变异性,以及用于生成更广泛特征和语言的数据的方法学。
- 概念语言相似性的研究:比较与评估
本研究旨在将语言学的特性纳入到自然语言处理(NLP)中,通过基于基本概念的表示来定义语言之间的相似性并将其应用于二元分类任务中的低资源语言研究。
- COLING面向大规模多语言神经机器翻译的信息性语言表示学习
本研究提出了两种方法,即语言嵌入体现和语言感知多头注意力,以学习信息量丰富的语言表示,从而缓解在多语言神经机器翻译模型中引导翻译的语言令牌的失效问题,并且在两个大规模多语言神经机器翻译数据集上取得了显著的性能提升。同时,进一步的语言类型学预 - EMNLP朝向结构化音素库的归纳
为 EMNLP 2020 举办的 “SIGTYP 2020:语言类型学计算研究第二工作坊” 准备的此篇论文概述了现有语音类型学研究工作。
- EMNLP词类灵活性:一种深度上下文化的方法
本文提出了一种基于上下文化词向量探索词类灵活性的方法,并应用于 37 种语言,发现由于一定的上下文语境影响,单词在不同的语法类别中产生语义的位移现象,这支持了词类灵活性是一个具有方向性的过程的观点。
- EMNLP从文本中推断语言类型学特征:推理《世界语言结构地图》的稀疏特征
本文提出一种利用多语种文本预测 World Atlas of Language Structures(WALS)特征的方法,使用基于字节嵌入和卷积层构建的循环神经网络预测器,通过在 556 种语言上的测试表明一些各种语言类型的特征是可靠预测 - EMNLPUDapter:面向真正通用依存句法分析的语言适应
该研究提出了一种基于文本参数生成和适配器模块的新型多语言任务适应方法,该方法通过语言嵌入来学习适配器,同时在各种语言之间共享模型参数,可有效地集成现有的语言类型学特征到分析网络中,并在高资源和低资源语言中均显着优于强的单语言和多语言基线,这 - ACL探索类型学知识库中的概率推论
本文介绍了一种使用计算模型发现语言基础规律的方法,其表现优于以往的基线模型,成功识别了已知的 Greenberg 大一统规律,同时还发现了有待进一步研究的新规律。
- ACL元音共鸣峰模型的深度生成模型
该研究提出了一种基于前两个共振峰值的声学信息的生成概率模型,用以预测语言中包含哪些元音,从而归纳语言类型学的原理。
- 语言变异和语言规律的建模:关于自然语言处理中的语言类型学调查
对语言类型学在自然语言处理中的应用进行了调研,发现目前的语言类型数据库在系统性能提升方面存在局限性,现提出将语言的类型类别与现代自然语言处理中的机器学习算法相融合的新方法。
- ACL从音韵学到句法:利用语言嵌入进行不同层次的无监督语言类型学研究
我们学习了分布式语言表述的方法,可以用来预测语言在不同类型水平和 NLP 模型中的相似性,进而预测 WALS 中的语言类型特征。
- ACL概率语言类型学:元音库存的深度生成模型
本文首次利用基于概率的深度随机点过程解决音韵类型学中的基础问题:什么构成了自然元音库,作者通过超过 200 种不同语言的广泛实验以及与之前的计算机模拟方法的对比,提出了全面的理论。
- 自然语言处理中类型学信息使用调查
本文系统地调查了现有的语言类型学资源及其在自然语言处理中的应用,旨在促进该领域未来的研究和发展。
- 对数百种语言进行句法规律分类
本文介绍了用于扩展语言资源的分类方法,比较了 WALS 的六个句法规则在 325 种语言中的分类效果。我们发现在使用 propagating 大多数标签的方法中,结合形态学和语言特征的逻辑回归模型的分类效果最好。
- 一种发现类型学蕴含的贝叶斯模型
该研究提出了一种计算模型来协助语言类型学家发现语言的普适规律,该模型能够处理语言样本的依赖关系,并发现了一些值得进一步研究的新规律。