什么是一个词?
本文研究书面语的信息编码和语义特征,利用信息论的方法分析书面语中词汇的分布和使用,探求了主题 - 词汇频率关系。研究结果表明,在每个文本中,频率高的词汇与主题的相关性更大,这种现象可以用特征大小和分布模型来解释。
Jul, 2009
探讨了人类语言习得中词汇分类的起源是基于先天内在结构还是出于自然学习的能力,利用人工神经网络预测语句中下一个词,揭示了也许由于预测编码和过程,大脑也可能形成抽象的词汇分类,即使其在训练时没有接收到有关词汇分类或语法规则的任何明确信息。
Feb, 2023
研究通过语言模型从原始文本中诱导世界知识时,词序对其的影响,使用词类比来探究这种知识。从五种语言分别提取六种固定词序的文本,对这些文本进行预训练。最终,分析了固定词序在词类比任务上的实验结果,发现某些特定的固定词序始终优于或不如其他词序,并且这些具体情况因语言而异。另外,发现 Wov2Lex 假设在预训练语言模型中不成立,而自然的词序通常导致中等水平的结果。源代码将在以下网址公开。
Mar, 2024
研究发现,与语言中其他单词相比单词的独特性在识别流畅口语中的作用至关重要,且这种独特性可以通过语言的声音或字符序列的统计模型来测量,这也可以解释为什么短的单词反而较少使用;这一发现提供了证据表明听众的处理负担在跨语言的单词形式的微观层面起着关键性作用。
Mar, 2017
通过定量研究 Wordnet 数据库的语义网络结构,我们发现语义链接遵循自组织网络的幂率尺度不变行为,而多义词作为一个单词在语义网络中起到了联系不同含义的作用。包含多义链接会对语义图的组织产生深远的影响,形成了一个小世界,并呈现出高流量聚类(枢纽)代表抽象概念。因此,我们的结果表明,多义词组织具有紧凑和分类的表现形式,并可能解释多义词在各种语言中的普遍存在。
Jun, 2001
该论文探讨了词义消歧的问题,提出了一个从语料库引申到词义的抽象概念,根据目的对语料进行聚类,反对一般语义资源对英语 / 法语等的词义描述,强调词义相对于 task 确定。
Dec, 1997