本研究发现,单词之间发生的距离时间间隔符合Weibull分布,该结果对Zipf's law的假设提出了挑战,也对集体人类动态的显性表现具有重要影响。
Jan, 2009
研究通过对24种自然语言的文字频率进行对数标度的排名分析发现,它们的曲线类型与磁性材料中的磁化曲线十分相似,从而提出了自然语言中可能存在磁化曲线的猜想。
Jul, 2013
基于单词组成短语是语言中最基本的意义单元的简单观察,我们利用一种基于统计力学的可靠文本分区方法,将短语的Zipf定律拓展了九个数量级,使得文本分析得以更加严谨和广泛地进行。
Jun, 2014
文章回顾并批评性讨论了用于描述语言统计规律的通用定律,证明了它们所包含的同时性和独立性等简化统计假设不一定总是成立,阐述了语言定律只有与文本的生成模型结合使用才具有意义和可证伪性,并使用大型数据库的文本生成检验了这些假设的效果并测得大于预期的波动量。
Feb, 2015
通过优化编码方法,本文提出了一种新的针对语言词频的Zipf定律推导方式,该推导结构类似于曼德布洛特的随机打字模型,但具有多个优点,可以启发对语言其他统计定律的研究,从而进一步解释其产生动机,如简单易懂和快速交流等。
May, 2016
该研究论文阐述了对于正则文法的符号间互信息随符号间距离指数衰减的特性,然而对于上下文无关文法则符合幂律分布;并且将该现象与统计力学、湍流以及宇宙膨胀等领域的幂律相关性做了联系,以及阐述了这种现象在机器学习中的潜在应用。除此之外,该研究论文还提出了一种合理的互信息量的量化方式,并探讨了该现象在更复杂的贝叶斯网络中的推广。
Jun, 2016
使用序数模式方法,分析了11种主要语言的词汇统计连接,并发现不同语言表达单词关系的方式构成了独特的模式分布,这些模式分布的波动可以确定文本的历史时期和作者,结果凸显了序数时间序列分析在语言学、历史语言学和文体学中的相关性。
Aug, 2022
提出一种基于达尔文自然选择原理的计算模型,通过决策树和值函数树重建实体的轨迹,提供了一种通过机器学习学习观测历史数据、发现自然法则的算法模型。
Mar, 2023
本文回顾了物理学领域关于因果关系和方程式发现的概念、方法和相关工作,在地球和气候科学、流体动力学与力学以及神经科学等领域展示了一系列案例,展示了有效地利用观测数据、现代机器学习算法与领域知识的互动等方面,揭示了通过观察自然现象发现根本定律和因果关系的过程正在通过更好地利用观测数据、先进的机器学习算法和与领域知识的互动得到革命性的变革。
May, 2023
本研究解决了语言模型研究中的数学和物理应用问题,通过集合论和分析法对语言模型进行严格定义,提出分布的模空间概念。研究发现,熵函数的零点以及接近零点的情况是大型语言模型(LM)逼近智能语言模型的关键障碍,并提出了该领域的重要猜想,拓展了我们对语言模型的理解。
Jul, 2024