本研究展示了一个对语言形态上不规则性的定义,并在 28 种语言中使用神经传导模型估计此数量,证明了不规则性与高频度之间的相关性,并且在单元语法的层面聚合时,相关性更为稳固。
Jun, 2019
我们量化不同语言形态系统的语言复杂度,揭示了屈折范式的大小和不规则程度之间的经验权衡,即一种语言的屈折范式可以是大小大,或高度不规则,但永远不会两者兼备。我们的方法体现了屈折范式的熵 - 即共同预测范式所有表面形式的难度。我们通过变分逼近估计这一问题,并测量这些范例在 31 种类型多样的语言中的表现。
Jul, 2018
研究分析了词形变化在子词 NLP 中的高性能和高可变性的原因,提出了更好反映实际使用情况的数据采样和评估策略,探讨了当前变形系统的泛化能力。
May, 2023
在语言中,形态上不规则的词往往具有音节结构简单的特点,而形态规则的词则往往具有音节结构复杂的特点。我们研究了这四个变量之间的关系,并发现形态上的不规则性和音节结构的复杂性之间存在着正向关系,尽管在不同的语言中方向有所不同。我们还发现了形态上的不规则性和词的长度之间存在着负向关系,并且某些关于这四个变量关系的现有发现并不像以前认为的那么可靠。
Jun, 2024
本研究通过训练一组不同参数设置的 Transformer 模型,在英语动词过去式词形成任务上取得了高精度,进一步暗示了模型具有某种程度的抽象学习能力,但其表现不符合人类数据,可能不是一个好的认知模型。
Oct, 2022
该研究使用少量标记的数据引导标注词形变化,利用不同类型的规律,通过类比词标记和距离对词配对,证明了手工标记许多示例可能是不必要的。
Apr, 2021
本研究探讨双语词典学习是否有能力学习罕见的语法变形,并证明通过在训练时添加简单的形态学约束可以提高双语词典学习的性能。
Sep, 2019
提出了一种新颖的基于词形的约束方法,通过使用简单的语言特定规则来改进分布向量空间的语义质量,这种方法可以提高低频词估计的准确性,并在解决语言理解任务的长尾现象方面取得显著的效果。
Jun, 2017
提出一种针对低资源语言的自动词形变化生成方案,在神经网络方法、注意力机制、跨语言转移学习等方面做了改进并实现了 15% 的性能提升。发现了语言类别相似和通用表示是跨语言转移学习成功的关键因素。
Aug, 2019
本研究探索了通过不同方式获取亚字符音韵特征对形态学模型、尤其是重音和分析的效果,通过语言特定的语法从标准文字数据中引出音素数据,并用两种重音模型在八种语言中进行实验。
Jun, 2023