局部基于语法的编码：再认识

Sep, 2022

Local Grammar-Based Coding Revisited

Łukasz Dębowski

TL;DR本篇论文阐述了基于语法的最小局部编码问题，提出了解决该问题的一种简单的 Zipfian 基准证明方法，并发现最小块编码规则的数量不能明显区分长内存和无内存来源。

Abstract

We revisit the problem of minimal local grammar-based coding. In this setting, the local grammar encoder encodes grammars symbol by symbol, whereas the minimal grammar transform minimizes the grammar length in a

minimal local grammar-based coding local grammar encoding minimal grammar transform mutual information zipfian bound

发现论文，激发创造

可数无限字母表上的编码

本文研究了针对可数无限字母表上压缩源的通用无损编码策略，探讨了理论通用编码方法在无限字母表上的适用性，给出了上下界分析与编码技术。

Jan, 2008

最优编码和 Zipf 定律的起源

考虑了任意编码方案下最优编码的问题，并表明它预测了 Zipf 定律的缩写，即自然语言中更常见的词语更短。研究发现，最优非奇异编码预测词语的长度应该按其频次排名的对数增长，这与 Zipf 缩写定律一致。最优非奇异编码结合最大熵原则还预测了 Zipf 的等级 - 频率分布。最后，讨论了最优编码对 Zipf 定律及其他语言规律的构建的影响。

Jun, 2019

具有本地纠错特性的最优线性码

本文针对分布式存储应用中出现的信息符号局部性和線性码本身的修改，提出了一种新的纠错码方法，该方法可以在出现局部校验错误时恢复被删除的码符号，并给出了相应的严格界限。

Feb, 2012

基于局部比特回传编码的压缩流

本文提出了一种用于流模型的新的压缩技术 —— 局部 Bits-Back 编码，并为许多流模型提供了高效的算法来实现该技术，实验表明该算法可以实现先进的流模型在高维数据上的理论码率。

May, 2019

紧急通讯中的反效率编码

研究了当两个神经网络，即 “说话人” 和 “听众” 被训练玩信号游戏时，是否会产生类似 Zipf 定律的现象，然而我们发现，这些神经网络没有按照 Zipf 定律的方式编码，即更常见的输入被分配到更长的消息中，这种反效率的编码方式对于监听者更容易进行区分，并且与人类沟通不同的是，说话人不会对简洁性施加压力，同时，当成本函数包括对更长消息的惩罚时，结果消息分布开始遵循 Zipf 定律。因此，该研究强调了在高度控制的设置中研究新兴沟通的基本特征的重要性，以确保后者不会偏离人类语言。

May, 2019

LLMZip：使用大语言模型的无损文本压缩

使用大型语言模型 LLaMA-7B，我们给出了一组英文熵的渐进上界估计，并基于该估计提出了一种结合大型语言模型和无损压缩方案的英文文本无损压缩算法，初步结果显示出优于 BSC，ZPAQ 和 paq8h 等现有文本压缩方案的性能。

Jun, 2023

通过最大编码速率减小原理学习多样化和有区分度的表征

提出使用 $ ext {MCR}^2$ 最大编码率减少原则来学习区分类别的内在低维结构，可以在有监督学习、自监督学习和无监督学习中以统一的方式学习内在表示，并可产生更鲁棒的标签噪声分类结果。

Jun, 2020

短块长度领域高效纠错码

本论文回顾了有关短块编码的各种构造方法并将其与有限长度性能和经典纠错编码方案进行比较，研究内容针对二进制和高阶调制，旨在有效地实现理论性能限制及简化解码复杂度，以解决在无线通信网络下应用的问题。

Dec, 2018

形式语言和统计物理学中的临界性

该研究论文阐述了对于正则文法的符号间互信息随符号间距离指数衰减的特性，然而对于上下文无关文法则符合幂律分布；并且将该现象与统计力学、湍流以及宇宙膨胀等领域的幂律相关性做了联系，以及阐述了这种现象在机器学习中的潜在应用。除此之外，该研究论文还提出了一种合理的互信息量的量化方式，并探讨了该现象在更复杂的贝叶斯网络中的推广。

Jun, 2016

稳定熵假设和熵感知解码：鲁棒自然语言生成的分析与算法

本论文提出，当语言生成模型用于文本完成，故事生成或对话建模等开放性文本生成问题时，最先进的语言生成模型可能会退化。我们发现近似平坦熵带内的生成更为 “人类化”，而模型违反熵的这些限制通常会导致退化。因此，我们提出了一种基于熵的解码算法，以生成更具语境感和 “人类化” 的文本。

Feb, 2023