May, 2024

在统计多概况中的自然语言相关维度

TL;DR使用 Grassberger-Procaccia 算法和 Fisher-Rao 距离,测量了自然语言的相关维数,并证明了语言具有多分形性质,具有全局自相似性和普遍维数约为 6.5,大于简单离散随机序列的维数但小于 Barabasi-Albert 进程的维数,同时长时记忆是产生自相似性的关键。这种方法适用于任何真实世界离散序列的概率模型,并展示了音乐数据的应用。