May, 2024

大型语言模型中产生的有向度量结构

TL;DR大型语言模型是基于 Transformer 的神经网络,通过训练来产生给定文本上可能的下一个词的概率分布,本文通过观察 - log 概率来定义了一个度量结构,并构建了一个度量多面体和一个保距嵌入,以使文本映射到特定的极端光线生成器,进一步证明了多面体与添加更多文本是兼容的,并导出了文本向量的近似表示方法,最后证明了多面体是文本的格闭包。