分词和无噪声信道

ACLJun, 2023

Tokenization and the Noiseless Channel

Vilém Zouhar, Clara Meister, Juan Luis Gastaldi, Li Du, Mrinmaya Sachan...

TL;DR本文研究了子词分割在自然语言处理中的应用，发现利用 Rényi 熵而非 Shannon 熵可以提高机器翻译的效果。

Abstract

subword tokenization is a key part of many nlp pipelines. However, little is known about why some tokenizer and hyperparameter combinations lead to better →

subword tokenization nlp pipelines downstream model performance information-theoretic terms rényi entropy

发现论文，激发创造

extit {Tokenization and the Noiseless Channel}》两个反例

通过分析两种变体的 BPE 分词方法，本研究揭示了用 Rényi 效能作为分词度量指标的局限性，为构建更准确的预测器提供了启示。

Feb, 2024

关于 LLMs 中的分词理论

通过研究变压器在简单数据生成过程上的行为，我们探讨了词汇标记的理论视角，发现词汇标记对于变压器模型的训练是必要的，并验证了合适的词汇标记可以使变压器模型在学习 k 阶马尔可夫源的概率时达到近乎最优的结果。

Apr, 2024

信息熵损失对生成式语言模型学习困难的缓解

通过引入信息熵损失函数来解决文本语料中常见和难以学习的标记的不平衡性，改进了生成式语言模型在下游任务中的性能表现。

Oct, 2023

重新思考分词：为大型语言模型打造更好的分词器

通过追踪分词器从词级到子词级的演变，本研究分析了分词器如何在增强模型适应性的同时控制复杂度方面平衡标记和类型。根据认知科学中的 “最省力原则”，本文提出了一种新的 LLN 分词器 LiB 模型，它可以自主学习由子词、词和多词表达式组成的综合词汇，从而有效减少标记和类型的数量。比较评估显示，LiB 分词器优于现有的词级和 BPE 分词器，为分词器开发提供了创新方法，并提示未来的基于认知科学的分词器可能更为高效。

Mar, 2024

无监督跨语言分词的自调参数

该研究探讨了对于英语、俄语和汉语的无监督分词问题可行的元学习方法，通过实现基于不同人类独立健身函数的元学习方法以及三个度量的加性和乘性组合来测试不同语言的无监督分词模型并找到了适合每种语言的最佳设置。

Mar, 2023

神经机器翻译的简单而有效的噪声信道建模

本文探讨了基于标准序列到序列模型的神经嘈杂信道建模方法，实验结果表明这种方法在四个语言对的翻译任务中表现优异，尤其在 WMT'17 的德英翻译任务中，其 BLEU 分数比直接模型高出 3.2 分。

Aug, 2019

高效符号通信码的演化

本文探讨了人类自然语言结构如何成为相互之间交流编码演化的产物，以最大化文化不可知和跨语言度量，如反熵，压缩因子和交叉分割 F1 得分，并在超参数空间中执行元学习，通过最大化上述度量，实现自然语言学习。文中介绍了针对俄语，英语和汉语的跨语言单词级分割分词研究，以及对英语的子词分割或形态分析研究的初步结果。研究发现，从分词到分词中可以发现，这些度量驱动着语言结构，反熵更相关于英语和俄语，而压缩因子更适用于中国。对于英语词汇表的子词分割或形态分析的研究揭示了压缩和压缩因子之间存在直接联系，而惊讶的是，与反熵的相同联系却变成了相反。

Jun, 2023

无监督标记学习

本研究发现，相比于互信息和条件概率等统计度量方法，所谓的 “过渡自由度” 度量方法在无监督分词方面表现更佳，跨多语料库提供了 0.71 到 1.0 的 F - 度量分数。我们发现，不同的语言需要该度量方法的不同分支（如导数、方差和 “峰值”）才能实现成功的分词。更大的训练语料库不一定会导致更好的分词质量，而通过消除统计上薄弱的证据来压缩模型往往会提高性能。该无监督分词技术提供的质量优于或与基于词典的技术相媲美，具体效果取决于语言。

May, 2022

学习您的标记：用于语言建模的单词汇总分词

这篇论文通过学习词边界将字节 / 字符聚合成词表示，并在主要语言模型中解码个别字符 / 字节，结果表明这种分词方式在代表下一个词的预测模型测试中表现得比子词和字节 / 字符模型更好，特别是在稀有词方面达到了 30 倍的效果提升。

Oct, 2023

用于学习图像压缩的通道方向自回归熵模型

本研究介绍了两种增强技术：通道调节和潜在残差预测，提出了比现有上下文自适应模型更好的网络架构，该模型在最小化串行处理、保持数据完整性等方面都性能更优，在 Kodak 和 Tecnick 图像集上的平均速率提高了 6.7% 和 11.4%。在低比特率下，本研究的模型可使速率提高 18%，比像 BPG 这样的手工工程编解码器提高 25%。

Jul, 2020