Feb, 2024

分形模式可能解开下一个令牌预测中的智能

TL;DR我们研究了语言的分形结构,旨在提供一个精确的形式化方法来量化以前可能存在但尚未正式显示的属性。基于我们的发现,我们认为语言具有自相似性,表现出任何粒度级别的复杂性,并且没有特定的上下文长度;并且具有长程依赖性,其 Hurst 参数约为 H = 0.70。我们还证明了分形参数在预测后续表现方面优于困惑度为基础的每字节比特(BPB)。希望这些发现为语言和语言模型的成功背后的机制提供了新的视角。