形态上的不规则与频率相关

ACLJun, 2019

Morphological Irregularity Correlates with Frequency

Shijie Wu, Ryan Cotterell, Timothy J. O'Donnell

TL;DR本研究展示了一个对语言形态上不规则性的定义，并在 28 种语言中使用神经传导模型估计此数量，证明了不规则性与高频度之间的相关性，并且在单元语法的层面聚合时，相关性更为稳固。

Abstract

We present a study of morphological irregularity. Following recent work, we define an information-theoretic measure of irregularity based on the predictability of forms in a language. Using a →

morphological irregularity information-theoretic measure neural transduction model frequency paradigms

发现论文，激发创造

关于词形变化中不规则性的历时稳定性

本文使用循环神经网络模拟语言学习者，定量研究了语言中不规则单词的存在条件，测试了单词频率与不规则性之间的历时关系。

Apr, 2018

相關不代表補償：詞彙中的複雜性和不規則性

在语言中，形态上不规则的词往往具有音节结构简单的特点，而形态规则的词则往往具有音节结构复杂的特点。我们研究了这四个变量之间的关系，并发现形态上的不规则性和音节结构的复杂性之间存在着正向关系，尽管在不同的语言中方向有所不同。我们还发现了形态上的不规则性和词的长度之间存在着负向关系，并且某些关于这四个变量关系的现有发现并不像以前认为的那么可靠。

Jun, 2024

关于词形变化系统的复杂性和类型学

我们量化不同语言形态系统的语言复杂度，揭示了屈折范式的大小和不规则程度之间的经验权衡，即一种语言的屈折范式可以是大小大，或高度不规则，但永远不会两者兼备。我们的方法体现了屈折范式的熵 - 即共同预测范式所有表面形式的难度。我们通过变分逼近估计这一问题，并测量这些范例在 31 种类型多样的语言中的表现。

Jul, 2018

词频不预测语言模型的语法知识

本研究研究了神经语言模型的准确度，并发现特定名词在主谓一致和反身指代方面的准确度表现更好，并发现语料库频率与名词在语法任务中的表现无关，最后发现可以从各种类型的训练数据中学习新名词的语法性质。这些结果呈现了一个悖论：语法表现应该比实际观察到的表现更少变化。

Oct, 2020

形态学屈折的最小监督

该研究使用少量标记的数据引导标注词形变化，利用不同类型的规律，通过类比词标记和距离对词配对，证明了手工标记许多示例可能是不必要的。

Apr, 2021

语言中规范化的认知根源

研究表明，认知中存在至少两种独立来源的规范偏见：一种基于认知负荷的通用源和一种由语言刺激触发的特定源。这些因素都调节频率信息的编码和产生方式，但只有产生方面的调节会导致规范化。使用实验数据和文化传播模型，我们为每个实验条件下可能发展的规则性量身定制了预测，结果显示认知限制的影响在文化演化的背景下可能变得更加复杂。

Mar, 2017

频率解释了大型语言模型的大小、训练数据量和意外性与阅读时间的逆相关关系

大型、数据庞大的基于 Transformer 的语言模型对于罕见单词的预测更加准确，从而导致它们的意外度估计与人类的阅读时间相关性降低。

Feb, 2024

评估变换器神经网络作为英语过去时屈折的认知模型

本研究通过训练一组不同参数设置的 Transformer 模型，在英语动词过去式词形成任务上取得了高精度，进一步暗示了模型具有某种程度的抽象学习能力，但其表现不符合人类数据，可能不是一个好的认知模型。

Oct, 2022

形态变化：一次现实检验

研究分析了词形变化在子词 NLP 中的高性能和高可变性的原因，提出了更好反映实际使用情况的数据采样和评估策略，探讨了当前变形系统的泛化能力。

May, 2023

Morph-fitting：用简单的特定语言规则微调词向量空间

提出了一种新颖的基于词形的约束方法，通过使用简单的语言特定规则来改进分布向量空间的语义质量，这种方法可以提高低频词估计的准确性，并在解决语言理解任务的长尾现象方面取得显著的效果。

Jun, 2017