形态上的不规则与频率相关
在语言中,形态上不规则的词往往具有音节结构简单的特点,而形态规则的词则往往具有音节结构复杂的特点。我们研究了这四个变量之间的关系,并发现形态上的不规则性和音节结构的复杂性之间存在着正向关系,尽管在不同的语言中方向有所不同。我们还发现了形态上的不规则性和词的长度之间存在着负向关系,并且某些关于这四个变量关系的现有发现并不像以前认为的那么可靠。
Jun, 2024
我们量化不同语言形态系统的语言复杂度,揭示了屈折范式的大小和不规则程度之间的经验权衡,即一种语言的屈折范式可以是大小大,或高度不规则,但永远不会两者兼备。我们的方法体现了屈折范式的熵 - 即共同预测范式所有表面形式的难度。我们通过变分逼近估计这一问题,并测量这些范例在 31 种类型多样的语言中的表现。
Jul, 2018
本研究研究了神经语言模型的准确度,并发现特定名词在主谓一致和反身指代方面的准确度表现更好,并发现语料库频率与名词在语法任务中的表现无关,最后发现可以从各种类型的训练数据中学习新名词的语法性质。这些结果呈现了一个悖论:语法表现应该比实际观察到的表现更少变化。
Oct, 2020
研究表明,认知中存在至少两种独立来源的规范偏见:一种基于认知负荷的通用源和一种由语言刺激触发的特定源。这些因素都调节频率信息的编码和产生方式,但只有产生方面的调节会导致规范化。使用实验数据和文化传播模型,我们为每个实验条件下可能发展的规则性量身定制了预测,结果显示认知限制的影响在文化演化的背景下可能变得更加复杂。
Mar, 2017
大型、数据庞大的基于 Transformer 的语言模型对于罕见单词的预测更加准确,从而导致它们的意外度估计与人类的阅读时间相关性降低。
Feb, 2024
本研究通过训练一组不同参数设置的 Transformer 模型,在英语动词过去式词形成任务上取得了高精度,进一步暗示了模型具有某种程度的抽象学习能力,但其表现不符合人类数据,可能不是一个好的认知模型。
Oct, 2022
提出了一种新颖的基于词形的约束方法,通过使用简单的语言特定规则来改进分布向量空间的语义质量,这种方法可以提高低频词估计的准确性,并在解决语言理解任务的长尾现象方面取得显著的效果。
Jun, 2017