英语名词复数的语义属性:来自词向量的启示
研究了英语名词复数和单数的语义,比较了基于 FRACSS 和 CCA 这两种概念化复数的模型,并在大语料上验证了语音信息和语意向量的预测关系,结果表明基于语用的语意表示方法的效果更好。
Jul, 2022
该研究提出了一种新颖的概率模型来捕捉单词形成的分析和合成的含义,利用神经网络的向量组合方法,共同学习单词的形态划分和语义语素的分布式向量,提高了单词的分割准确率和语素 F1 指标 3% 至 5%。
Jan, 2017
使用 p-adic 度量作为线性回归问题的简单机器学习模型,在印欧语系、南岛语系、新几内亚翻译语、汉藏语系、尼洛撒哈拉语系、奥托梅安格语系和大西洋刚果语系等语系上取得比欧几里得空间回归模型更好的性能,但目前尚无足够证据支持模拟不同名词词形变化为 P-adic 邻域,即使在印欧语言中也是如此。
Oct, 2022
通过量化语言单词和片段级别的形态学来降低整体语言严格形态类型的刻板印象,测试了无监督和监督的形态分割方法,并提出了一种半自动的融合方法,探讨了机器翻译质量与合成和融合程度之间的关系,并在英语、德语、土耳其和西班牙语上进行了实验。
May, 2022
语言模型标记化与性能之间的关系是一个开放的研究领域。我们研究了不同标记化方案如何影响西班牙语复数的数一致性。我们发现,形态对齐标记化与其他标记化方案的表现相似,即使在对训练过程中不会进行这种标记化的单词人工引导下。我们还进行了探索性分析,显示了不同复数标记化的语言模型嵌入在嵌入空间中具有类似的分布,最大化区分单数名词和复数名词的嵌入轴线。我们的结果表明,形态对齐标记化是一种可行的标记化方法,现有模型已经对一些形态模式进行了泛化。然而,我们的结果表明形态标记化并不是性能的严格要求。
Mar, 2024
本研究提出一种新的方法来衡量当今语言模型中形容词修饰现象的组合表现,研究结果表明当代神经语言模型在考虑下文影响时存在显著的差异,并且词类之间存在差异但在组合中无法表现,这引起了当前语言模型是否能够捕捉到真正的语言分布特性的质疑。
Oct, 2022
该综述文章阐述了分布语义学在理论语言学领域的影响有限,但其成功地捕捉了自然语言诸多意义方面,并回顾了该领域在语义变化、一词多义及组合,以及语法 - 语义接口等领域的研究成果,旨在在理论和计算语言学之间进行更大规模的交叉授粉,以推进我们集体的语言知识。
May, 2019
使用三种普通的分类方法(最近邻算法,Nosofsky 的‘广义上下文模型’和标准的三层反向传播网络)对德语单数的音系表达进行预测,虽然这些都是绝对的‘最小’模型,但是它们在正确预测复数类别方面表现出色。最近的邻居预测了 CELEX 数据库中 24,640 个名词的正确复数类别,三层反向传播网络在 8,598 个(非化合物)名词的子集上表现最好。与 Marcus 等人提出的混合模型相比,在该数据集上性能更优。
May, 1996
本文提出了一种基于上下文化词向量探索词类灵活性的方法,并应用于 37 种语言,发现由于一定的上下文语境影响,单词在不同的语法类别中产生语义的位移现象,这支持了词类灵活性是一个具有方向性的过程的观点。
Sep, 2020
本研究研究了自然语言的名词语法变化,发现形式和语义对名词分类至关重要,尤其是在捷克语和德语中,能够为名词的语法变化提供很大的信息量,并且在不同语言中这种变化的差异性也存在。
May, 2020