考虑了任意编码方案下最优编码的问题,并表明它预测了 Zipf 定律的缩写,即自然语言中更常见的词语更短。研究发现,最优非奇异编码预测词语的长度应该按其频次排名的对数增长,这与 Zipf 缩写定律一致。最优非奇异编码结合最大熵原则还预测了 Zipf 的等级 - 频率分布。最后,讨论了最优编码对 Zipf 定律及其他语言规律的构建的影响。
Jun, 2019
此论文提出了一个简单的公式来度量语言词长的优化程度,并表明语言在优化方面的平均水平为 62%至 67%,声音上的语言单词持续时间的优化程度比字符中的写作长度更高。
Aug, 2022
本文探讨了 Zipf 定律与语言缩写的相关性,提供了广泛的证据证明这一定律适用于书面和口语,从而提供了间接证据证明压缩语言的实际存在并提出了简单公式,为度量和比较语言中词语长度的最优性打下了基础。
Mar, 2023
该论文描述了基于 LZ77 算法的一种基于词的压缩变体,包括滑动窗口实现和输出编码的各种方法。同时,还包括了一个实验性应用程序的实现,测试其效率并寻找最佳组合,以实现最佳压缩比的目标。最后,作者对该实现应用程序与其他基于词的压缩程序以及其他常用压缩程序进行了比较。
Apr, 2008
本篇论文阐述了基于语法的最小局部编码问题,提出了解决该问题的一种简单的 Zipfian 基准证明方法,并发现最小块编码规则的数量不能明显区分长内存和无内存来源。
Sep, 2022
本文研究了针对可数无限字母表上压缩源的通用无损编码策略,探讨了理论通用编码方法在无限字母表上的适用性,给出了上下界分析与编码技术。
Jan, 2008
本文提出了一种基于编码理论的词库可压缩性的分析方法,并通过研究各种语言的语料库,发现了构成型形态学和书写规则可以充分解释自然编码的大部分复杂性。
Apr, 2021
通过对英文字母在不同类别文本中出现频率的统计分析,我们开发了一种称为距离 d 的度量指标,可用于算法识别不同类别的文本,并应用于信息传输、大数据管理和语言学。
Jan, 2024
通过优化编码方法,本文提出了一种新的针对语言词频的 Zipf 定律推导方式,该推导结构类似于曼德布洛特的随机打字模型,但具有多个优点,可以启发对语言其他统计定律的研究,从而进一步解释其产生动机,如简单易懂和快速交流等。
May, 2016
该研究侧重于英文文本,并利用其语义方面进一步改进压缩效率,主要思想源于填字游戏,即通过某些关键字母提供,即使隐藏的单词具有语义学特征,也可以被精确地重构,并提出了一种类似游戏的基于掩码的策略,编码器评估每个单词的语义重要性,然后掩盖较小的单词,目标解码器则通过使用 Transformer 中的语义上下文来恢复被掩盖的单词。 实验证明,所提出的语义方法比传统方法如霍夫曼码和 UTF-8 代码可以更好地保留目标文本的含义,同时实现更高的压缩效率。
Apr, 2023