ACLAug, 2016

快速、紧凑、准确:压缩后缀树的无限阶语言建模

TL;DR本文介绍一种基于压缩后缀树的语言模型,该模型具有高度紧凑的表现形式,可在内存中轻松容纳,并支持在计算语言模型概率时所需的查询。该模型在构建时间和内存使用方面仅会导致适度的增加,但是可以通过多种优化方式提高查询运行时间,达到高达 2500 倍的提速效果。在大规模语料库和高马尔可夫阶数的应用场景下,该方法与现有的 KenLM 算法相比具有高度的竞争力,并且所需的内存要求通常低好几个数量级,查询运行时间相当或略快。