生物学中的语言学规律

Oct, 2023

Linguistic laws in biology

Stuart Semple, Ramon Ferrer-i-Cancho, Morgan L. Gustison

TL;DR语言学规律在生物学中的研究，通过提出一个新的概念框架，整合了不同层次的分析，并将语言学规律与生物学核心理论统一起来。

Abstract

linguistic laws, the common statistical patterns of human language, have been investigated by quantitative linguists for nearly a century. Recently, →

linguistic laws biologists quantitative linguists biological organisation conceptual framework

发现论文，激发创造

语言学中的统计规律

文章回顾并批评性讨论了用于描述语言统计规律的通用定律，证明了它们所包含的同时性和独立性等简化统计假设不一定总是成立，阐述了语言定律只有与文本的生成模型结合使用才具有意义和可证伪性，并使用大型数据库的文本生成检验了这些假设的效果并测得大于预期的波动量。

Feb, 2015

人类语言序列的泰勒定律

本文描述了一种用于自然语言中的泰勒定律度量的新方法，并对跨 14 种语言的 1100 个文本进行了分析，发现书面自然语言文本的泰勒指数呈现几乎相同的值，同时，还比较了其他语言相关数据的泰勒指数，结果显示出泰勒指数可用于量化语言时间序列的基本结构复杂性，文章还展示了这些发现在评估语言模型方面的适用性。

Apr, 2018

语言的几何学

本文从几个角度综合了各种主张，提出了一种独特的语言学派，将数学几何观点引入到语法中，描述了一种基于几何学的机制，用于解释人类语言里的显著特征，并提出了一种新型的匹配方法，利用代表单词的标记链来形成句子，并匹配语法词序。最终得到的二维和三维结合体为以往传统语法体系难以准确描述的语言规则提供了一种新视角。

Mar, 2023

自然语言的复杂系统方法

从复杂性科学的角度总结了自然语言研究中使用的主要方法概念，并记录了这些方法在识别语言的通用和系统特征方面的适用性。讨论了数量语言学中三个与复杂性相关的研究趋势，包括对文本中单词频率的研究、基于时间序列分析的方法应用于研究书面文本中的相关性、以及将网络形式主义应用于自然语言研究中。

Jan, 2024

控制词语使用波动的统计规律：从词语诞生到死亡

通过分析英语、西班牙语和希伯来语记录的一千万个单词的动态特性，以期了解语言和文化的共同进化，我们报告了有用的语言独立模式，作为语言进化理论模型的基准。

Jul, 2011

从顺序信息处理的瓶颈中获取语言结构

人类语言是一种独特的自然界沟通方式，其系统性在于信号可以分解为词汇并通过一种规则方式组合成句子，且通过最小化过剩熵的方式实现自然语言一致性，进而达到高效的沟通和信息处理。

May, 2024

人类语言的假观念：为何统计学需要语言学

研究语言处理的统计表面分布和基于句法信息的离散分层结构之间的紧张关系，揭示了只有反映句法结构的 surprisal 模型能够解释语言的规律性。

Feb, 2023

不同空间、时间和语法尺度下的语言统计学

采用 Twitter 数据，研究英语和西班牙语的语言统计学，特别是不同尺度的排名多样性以及 Twitter 专属标记的统计学，发现在语法尺度上，即使在不同的尺度、语言和国家值下，排名多样性曲线最相似。结论有助于量化语言统计特征的普遍性及其带来的变化。

Jul, 2022

语法形式的演化：一些数量化方法

通过静态和动态模型，我们使用统计物理学的概念阐述了语法形式演化的两种主要机制：传承机制和接触机制，静态模型强调规则和例外的相对数量，而动态模型则侧重于非正常形式的出现。

Feb, 2023

关于句法结构的出现：量化和建模规律双重性

本文介绍了一个用来量化语言中组合性和组合能力水平的框架，通过模拟人为语言游戏来证明 Blending Game 理论能够解释语言中的无意义形式的组合和构成过程。

Feb, 2016