局部基于语法的编码:再认识
考虑了任意编码方案下最优编码的问题,并表明它预测了 Zipf 定律的缩写,即自然语言中更常见的词语更短。研究发现,最优非奇异编码预测词语的长度应该按其频次排名的对数增长,这与 Zipf 缩写定律一致。最优非奇异编码结合最大熵原则还预测了 Zipf 的等级 - 频率分布。最后,讨论了最优编码对 Zipf 定律及其他语言规律的构建的影响。
Jun, 2019
本文针对分布式存储应用中出现的信息符号局部性和線性码本身的修改,提出了一种新的纠错码方法,该方法可以在出现局部校验错误时恢复被删除的码符号,并给出了相应的严格界限。
Feb, 2012
本文提出了一种用于流模型的新的压缩技术 —— 局部 Bits-Back 编码,并为许多流模型提供了高效的算法来实现该技术,实验表明该算法可以实现先进的流模型在高维数据上的理论码率。
May, 2019
研究了当两个神经网络,即 “说话人” 和 “听众” 被训练玩信号游戏时,是否会产生类似 Zipf 定律的现象,然而我们发现,这些神经网络没有按照 Zipf 定律的方式编码,即更常见的输入被分配到更长的消息中,这种反效率的编码方式对于监听者更容易进行区分,并且与人类沟通不同的是,说话人不会对简洁性施加压力,同时,当成本函数包括对更长消息的惩罚时,结果消息分布开始遵循 Zipf 定律。因此,该研究强调了在高度控制的设置中研究新兴沟通的基本特征的重要性,以确保后者不会偏离人类语言。
May, 2019
使用大型语言模型 LLaMA-7B,我们给出了一组英文熵的渐进上界估计,并基于该估计提出了一种结合大型语言模型和无损压缩方案的英文文本无损压缩算法,初步结果显示出优于 BSC,ZPAQ 和 paq8h 等现有文本压缩方案的性能。
Jun, 2023
提出使用 $ ext {MCR}^2$ 最大编码率减少原则来学习区分类别的内在低维结构,可以在有监督学习、自监督学习和无监督学习中以统一的方式学习内在表示,并可产生更鲁棒的标签噪声分类结果。
Jun, 2020
本论文回顾了有关短块编码的各种构造方法并将其与有限长度性能和经典纠错编码方案进行比较,研究内容针对二进制和高阶调制,旨在有效地实现理论性能限制及简化解码复杂度,以解决在无线通信网络下应用的问题。
Dec, 2018
该研究论文阐述了对于正则文法的符号间互信息随符号间距离指数衰减的特性,然而对于上下文无关文法则符合幂律分布;并且将该现象与统计力学、湍流以及宇宙膨胀等领域的幂律相关性做了联系,以及阐述了这种现象在机器学习中的潜在应用。除此之外,该研究论文还提出了一种合理的互信息量的量化方式,并探讨了该现象在更复杂的贝叶斯网络中的推广。
Jun, 2016
本论文提出,当语言生成模型用于文本完成,故事生成或对话建模等开放性文本生成问题时,最先进的语言生成模型可能会退化。我们发现近似平坦熵带内的生成更为 “人类化”,而模型违反熵的这些限制通常会导致退化。因此,我们提出了一种基于熵的解码算法,以生成更具语境感和 “人类化” 的文本。
Feb, 2023