音位结构复杂性及其权衡

ACLMay, 2020

Phonotactic Complexity and its Trade-offs

Tiago Pimentel, Brian Roark, Ryan Cotterell

TL;DR本研究介绍了一种计算语音统计复杂度的方法，在给定来自不同语言的序列化单词和样本统计模型的基础上，通过负对数概率的近似值来比较语言的熵，发现 bits per phoneme 与平均单词长度之间呈现非常强的负相关关系

Abstract

We present methods for calculating a measure of phonotactic complexity---bits per phoneme---that permits a straightforward cross-linguistic comparison. When given a word, represented as a sequence of phonemic seg

phonotactic complexity bits per phoneme cross-linguistic comparison entropy average word length

发现论文，激发创造

方言间的音韵复杂度

通过对荷兰方言和闽方言的微观研究，我们在方言层面上发现了词长和音韵复杂性之间的权衡关系，并使用 LSTM 基于电话级别的语言模型得出实证证据。地理广义加性模型（GAM）表明，音韵复杂性较低的方言集中于首都地区，这与语言变体中人口较多或更多样化的陈述相对应。我们还尝试了将预测音节构成作为辅助任务纳入，但未观察到负相关性的增加。

Feb, 2024

相關不代表補償：詞彙中的複雜性和不規則性

在语言中，形态上不规则的词往往具有音节结构简单的特点，而形态规则的词则往往具有音节结构复杂的特点。我们研究了这四个变量之间的关系，并发现形态上的不规则性和音节结构的复杂性之间存在着正向关系，尽管在不同的语言中方向有所不同。我们还发现了形态上的不规则性和词的长度之间存在着负向关系，并且某些关于这四个变量关系的现有发现并不像以前认为的那么可靠。

Jun, 2024

利用字母位置概率评估词复杂性

通过使用简单和复杂词汇的样本，研究发现字母位置概率与简单和复杂词汇之间存在强大的统计关联，并创建一个基于字母位置概率的分类器，可以以 83% 的准确率对这两类进行分类。通过对额外数据集的测试，证实了这一发现，最终建立了一个准确率为 97% 的分类器，并用于评分英语课程中的四个级别的单词组。

Apr, 2024

学习发音作为跨语言联合正字音位复杂性的测量

本文利用机器学习模型探索什么因素会使一种语言的发音难度加大，并通过跨越 22 种不同语言的字符级变换器模型训练和验证，发现语言的发音难度主要由其字音对音素的映射的复杂性而非其文字本身的复杂性决定，并提出未来的研究应该考虑数据稀少性，以设计更公正的跨语言比较任务。

Jan, 2022

单词长度的优化。理论基础和实证研究

此论文提出了一个简单的公式来度量语言词长的优化程度，并表明语言在优化方面的平均水平为 62％至 67％，声音上的语言单词持续时间的优化程度比字符中的写作长度更高。

Aug, 2022

语言复杂性与语音识别准确性：字母复杂性有害，音韵复杂性无害

在这篇研究中，我们调查了哪些语言因素会影响自动语音识别（ASR）模型的性能。我们假设正字法复杂性和音素复杂性都会降低准确性。为了验证这一假设，我们在 25 种语言的基础上，使用 15 种书写体系对多语言自我监督预训练模型 Wav2Vec2-XLSR-53 进行微调，并比较它们的 ASR 准确性、字素数量、一元字素熵、表意性（书写系统中编码了多少词 / 语素级信息）以及音素数量。研究结果表明，正字法复杂性与低 ASR 准确性显著相关，而音素复杂性则没有显著相关性。

Jun, 2024

关于词形变化系统的复杂性和类型学

我们量化不同语言形态系统的语言复杂度，揭示了屈折范式的大小和不规则程度之间的经验权衡，即一种语言的屈折范式可以是大小大，或高度不规则，但永远不会两者兼备。我们的方法体现了屈折范式的熵 - 即共同预测范式所有表面形式的难度。我们通过变分逼近估计这一问题，并测量这些范例在 31 种类型多样的语言中的表现。

Jul, 2018

语言生产力的概率测量方法

本文提出了一种新的衡量语言生产力的方式，可以客观评估词缀作为构词元素形成新的复杂词语的能力，并且不直接依赖于词汇频率。作者建议将语言生产力视为词缀与随机基础词组合的概率，这种方法的优点包括避免了词汇频率对生产力度量的主导作用，自然地影响基础词的采样，并且通过模拟构建这些类型并检查它们是否在语料库中得到确认，而不仅仅是计数词缀的已认证词汇类型。该算法在英语和俄语数据上进行了评估，研究结果为语言生产力与类型和词汇量之间的关系提供了一些有价值的见解，语言生产力的增长似乎体现在类型数量的增加上，但这个过程分为两个阶段：首先是高频项目的增加，然后才是低频项目的增加。

Aug, 2023

非母语口语词语处理的音韵模型

研究发现，非母语人士在处理口语时存在困难，导致其在词汇记忆的语音编码上不够准确，本研究使用计算模型模拟语音学习，发现有些非母语人士的口音知觉可能是导致这种困难的原因之一。

Jan, 2021

语音错误下的最小有效音韵记忆理论：捕捉局部相关性

口语的演变受语音经济的约束，依赖于人类嘴巴的结构。这导致口语中存在局部语音相关性。我们通过构建一种受许多体物理中的变分模型启发的本地连接张量网络模型来证明这些局部相关性有助于学习口语。该模型因此成为语音记忆的最小模型，其中 ' 学习发音 ' 和' 学习一个单词 ' 是一体的。这一结果是学会产生目标语言中音标合理的新词的能力，同时提供了在说话过程中可能产生的最常见错误的层次结构。我们对该模型在拉丁语和土耳其语单词上进行测试（代码可在 GitHub 上找到）。

Sep, 2023