生物学中的语言学规律
文章回顾并批评性讨论了用于描述语言统计规律的通用定律,证明了它们所包含的同时性和独立性等简化统计假设不一定总是成立,阐述了语言定律只有与文本的生成模型结合使用才具有意义和可证伪性,并使用大型数据库的文本生成检验了这些假设的效果并测得大于预期的波动量。
Feb, 2015
本文描述了一种用于自然语言中的泰勒定律度量的新方法,并对跨 14 种语言的 1100 个文本进行了分析,发现书面自然语言文本的泰勒指数呈现几乎相同的值,同时,还比较了其他语言相关数据的泰勒指数,结果显示出泰勒指数可用于量化语言时间序列的基本结构复杂性,文章还展示了这些发现在评估语言模型方面的适用性。
Apr, 2018
本文从几个角度综合了各种主张,提出了一种独特的语言学派,将数学几何观点引入到语法中,描述了一种基于几何学的机制,用于解释人类语言里的显著特征,并提出了一种新型的匹配方法,利用代表单词的标记链来形成句子,并匹配语法词序。最终得到的二维和三维结合体为以往传统语法体系难以准确描述的语言规则提供了一种新视角。
Mar, 2023
从复杂性科学的角度总结了自然语言研究中使用的主要方法概念,并记录了这些方法在识别语言的通用和系统特征方面的适用性。讨论了数量语言学中三个与复杂性相关的研究趋势,包括对文本中单词频率的研究、基于时间序列分析的方法应用于研究书面文本中的相关性、以及将网络形式主义应用于自然语言研究中。
Jan, 2024
通过分析英语、西班牙语和希伯来语记录的一千万个单词的动态特性,以期了解语言和文化的共同进化,我们报告了有用的语言独立模式,作为语言进化理论模型的基准。
Jul, 2011
人类语言是一种独特的自然界沟通方式,其系统性在于信号可以分解为词汇并通过一种规则方式组合成句子,且通过最小化过剩熵的方式实现自然语言一致性,进而达到高效的沟通和信息处理。
May, 2024
采用 Twitter 数据,研究英语和西班牙语的语言统计学,特别是不同尺度的排名多样性以及 Twitter 专属标记的统计学,发现在语法尺度上,即使在不同的尺度、语言和国家值下,排名多样性曲线最相似。结论有助于量化语言统计特征的普遍性及其带来的变化。
Jul, 2022
通过静态和动态模型,我们使用统计物理学的概念阐述了语法形式演化的两种主要机制:传承机制和接触机制,静态模型强调规则和例外的相对数量,而动态模型则侧重于非正常形式的出现。
Feb, 2023
本文介绍了一个用来量化语言中组合性和组合能力水平的框架,通过模拟人为语言游戏来证明 Blending Game 理论能够解释语言中的无意义形式的组合和构成过程。
Feb, 2016