熵、热力学与语言模型的几何化
该研究论文阐述了对于正则文法的符号间互信息随符号间距离指数衰减的特性,然而对于上下文无关文法则符合幂律分布;并且将该现象与统计力学、湍流以及宇宙膨胀等领域的幂律相关性做了联系,以及阐述了这种现象在机器学习中的潜在应用。除此之外,该研究论文还提出了一种合理的互信息量的量化方式,并探讨了该现象在更复杂的贝叶斯网络中的推广。
Jun, 2016
本文提出了一个基于随机过程FiLex的数学模型,用于描述深度学习的新兴语言系统中词汇熵的变化,并验证了该模型对于不同环境下的超参数与熵之间的关系能够准确预测。
Nov, 2022
这篇论文采用了度量理论的方法来对自然语言处理中的语言建模进行精确的描述,并证明了许多流行的语言模型家族本质上是紧密的,从而避免了概率可能会“渗漏”到无限序列集合中的问题。同时也推广了之前一些关于紧密性的特征描述。
Dec, 2022
通过研究数据规模,我们发现了语言模型从快速记忆到慢速泛化的临界点,提出了数据效率假设并确定了语言模型训练中的数据不足、充足和过剩阶段。我们开发了一种配置方法来稳定地在简化语言模型中达到这种理解。实验结果显示,只有当语言模型达到一定的关键尺寸时才会发生泛化,我们对样本和模型进行了分析,验证了数据效率假设。我们的研究深化了对语言模型训练的理解,并提供了一个新的视角来解释数据在语言模型学习机制中的作用。
Jan, 2024
通过信息论和几何原理,我们引入了矩阵熵作为一种新的度量标准,以量化大型语言模型中的数据压缩能力,展示其在单模态和多模态设置中的适用性,并发现它可以作为传统损失缩放定律的补充。同时,我们基于矩阵熵提出了一种评估方法,用于评估对齐质量,并发现现代大型多模态模型表现出良好的对齐性能。
Jan, 2024
该研究探讨了大型语言模型(LLMs)中嵌入的信息编码,并发现与模型大小存在幂律关系的表示熵。基于此观察,提出了一个基于(条件)熵的理论以阐明该缩放定律现象。此外,通过使用信息论和回归技术,研究LLMs的自回归结构,并检查最后一个标记与前文标记之间的关系。具体地,我们建立了新标记的信息增益与岭回归之间的理论联系。此外,我们还探索了Lasso回归在选择有意义的标记方面的有效性,有时优于相关的注意力权重。最后,通过进行对比实验,发现信息分布在各个标记中,而不仅仅集中在特定的“有意义”标记中。
Feb, 2024
使用GPT-2,我们通过数值演示证明了低温和高温两种状态下大型语言模型产生的句子的差异不是平滑变化的,而是具有奇异、发散的统计特征,且关键行为随着过渡温度出现,这些关键行为在自然语言数据集中也有表现。我们还讨论了几个度量临界性质的统计量对于评估大型语言模型的性能应该是有用的。
Jun, 2024
基于对大语言模型性能与数据选择的理论推导和实证评估,我们发现模型性能与训练数据的压缩比例呈负相关,通过提出的基于低压缩比例的数据子集优先选择方法ZIP,在不同的大语言模型框架和对齐阶段得出了优越的实验结果。
Jul, 2024
本研究针对物理方程中存在的统计规律和模式进行探索,填补了对这些规律理解的空白。论文提出了一种新的分析方法,发现物理方程中算子的分布遵循指数法则,而非齐夫法则。这一发现不仅可能揭示自然规律的运作方式,也为符号回归和物理现象建模提供了新的思路。
Aug, 2024