伪随机纠错码
最近大型语言模型在创造逼真的机器生成内容方面取得了进展。水印技术是一种有希望的方法,用于区分机器生成的文本和人类文本,将统计信号嵌入输出中,理想情况下对人类来说是不可察觉的。我们提出了一种水印技术框架,通过纠错码来编码这些信号。我们的方法被称为鲁棒二进制码(RBC)水印,与原概率分布相比,不引入失真,并且质量几乎无明显降低。我们对基础模型和指令微调模型评估了我们的水印,在编辑、删除和翻译方面都表现出鲁棒性。我们提供了水印技术的信息论视角、一种强大的统计检测和生成 p 值的测试以及理论保证。我们的实证结果表明,相对于最先进技术,我们的水印技术速度快、强大且鲁棒性好。
Jun, 2024
本文讨论了在有噪声干扰的情况下,如何通过编码和译码,实现对实值信号的可靠传输和重建。研究结果表明,本文提出的两种解码方案可以显著降低传输错误对信息重建的影响,且只涉及简单的凸优化问题。数值模拟表明,该方案表现优异。
Dec, 2006
本篇文章介绍了一种局部可恢复编码(LRC),其使用特殊构造的多项式在有限域上进行编码,并通过多项式插值进行局部恢复。此外,还构造出具有多个不相交恢复集的编码,从而实现对热数据的高可用性。
Nov, 2013
本文研究了 Reed-Muller (RM) 码的子码及其解码,并提供了一种基于机器学习的投影剪枝框架,能以合理的代价维持几乎等同于全投影情况的解码率。
Jan, 2023
本文针对分布式存储应用中出现的信息符号局部性和線性码本身的修改,提出了一种新的纠错码方法,该方法可以在出现局部校验错误时恢复被删除的码符号,并给出了相应的严格界限。
Feb, 2012
通过基于 Pólya 的 urn 模型的无参数模型,利用随机边编码 (Random Edge Coding) 方法进行图压缩,依靠位后编码 (bits-back coding) 从边列表中无需替换抽样边和节点。实验证明,Random Edge Coding 可在现实世界的网络数据集上达到竞争性压缩性能,并可扩展到具有数百万节点和边的图。
May, 2023
我们提出了一种在自回归语言模型中种植水印的方法,这些水印在不改变一定最大生成预算下的文本分布的情况下对扰动具有鲁棒性。我们通过使用随机水印密钥计算的随机数序列映射到语言模型的样本来生成带水印的文本。为了检测带水印的文本,任何知道密钥的一方可以将文本与随机数序列对齐。我们用两种采样方案来实例化我们的水印方法:逆变换采样和指数最小采样。我们将这些水印应用到三个语言模型(OPT-1.3B,LLaMA-7B 和 Alpaca-7B)上,以实验证明它们对各种释义攻击的统计功率和鲁棒性。值得注意的是,在 OPT-1.3B 和 LLaMA-7B 模型中,即使在通过随机编辑(即替换、插入或删除)破坏了 40-50% 的标记之后,我们仍然可以可靠地检测到带水印的文本(p≤0.01)35 个标记。对于 Alpaca-7B 模型,我们对典型用户指令的水印响应可行性进行了案例研究。由于响应的熵较低,检测更加困难:约 25% 的响应(中位长度约为 100 个标记)可以在 p≤0.01 的条件下检测到,而水印也对我们实施的某些自动释义攻击不太鲁棒。
Jul, 2023
论文提出了一种针对分布式存储系统的编码方案,可以实现简单查找修复且具有任意高数据传输速率,并在云存储模拟中实验验证表明,相较于复制和标准的 Reed-Solomon 编码,该编码方案在性能和可靠性方面具有显著优势。
Sep, 2011