自动检测大型语言模型中的不充分训练标记

May, 2024

自动检测大型语言模型中的不充分训练标记

Fishing for Magikarp: Automatically Detecting Under-trained Tokens in Large Language Models

Sander Land, Max Bartolo

TL;DR我们通过分析 Tokenizer、基于模型权重的指标和启发式技术的结合，开发了一种有效的方法，用于自动检测在分词器词汇表中存在但在模型训练中很少或完全不存在的问题标记，我们的发现证明了这些标记在各种模型中的普遍存在性，并为改善语言模型的效率和安全性提供了启示。

Abstract

The disconnect between tokenizer creation and model training in language models has been known to allow for certain inputs, such as the infamous SolidGoldMagikarp token, to induce unwanted behaviour. Although suc

tokenizer creation model training glitch tokens large language model (llm)safety of language models

发现论文，激发创造

大型语言模型中的故障令牌：分类体系和有效检测

使用三种不同的分词工具，通过实验对七种顶级常用大型语言模型进行研究，发现了异常标志词 “glitch tokens”，并在嵌入空间中发现了它们的聚类规律，通过提出的基于聚类的新技术 GlitchHunter 显著优于三种基准方法，为减少大型语言模型中的分词相关错误提供有价值的洞见。

Apr, 2024

分词不足：分词的诅咒

大型语言模型存在分词问题，导致对错别字、长度差异和标记内部结构的忽视。本研究通过探究复杂问题解决、标记结构探测和对错别字的抵抗力来系统地调查这些挑战及其对大型语言模型的影响，并展示模型参数缩放与子词规范化对解决这些问题的作用。

Jun, 2024

令牌化对 LLaMa 俄文适应性的影响

通过词汇替换来解决 LLaMa 俄语适应问题，提高模型质量并加速微调和推理，同时减少内存消耗。

Dec, 2023

起步最困难：大规模语言模型对于时间数据的表示和分词的陷阱

介绍了大型语言模型（LLMs）在移动健康感知等人类中心任务中的使用，并通过案例研究证明了目前流行的 LLMs 对于时间数据的分词处理存在错误，提出了解决方案如轻量级嵌入层调整和多模态适配器来弥合模态差异。该论文强调了语言模型在处理输入细微差别时无法产生有意义的输出。

Sep, 2023

大型语言模型的水印

本研究提出了一种基于水印技术的保护私有语言模型的框架，通过嵌入可被算法识别但人类无法察觉的信号保证模型输出的安全性，并利用解释性 p 值的统计学方法检测水印的敏感性。测试结果表明本方法对于 Open Pretrained Transformer 等大型语言模型的检测效果良好，能够提升模型的鲁棒性和安全性。

Jan, 2023

使用大语言模型引导多语言语义分析器

使用大型语言模型通过少量提示将英文数据集转化为多种语言，以实现多语言语义解析，并在两个公共数据集上与传统的翻译 - 训练方法进行比较，表明使用 LLM 更有效。

Oct, 2022

通过多令牌预测实现更好、更快的大型语言模型

我们建议通过训练语言模型来预测多个未来标记，以提高样本利用效率，并对其下游能力进行改进，特别是在多词预测作为辅助训练任务时，在代码和自然语言生成模型方面获得了显著的改善。

Apr, 2024

高效地将预先训练好的语言模型适应新语言

本文研究如何有效地将任何现有的预训练大型语言模型适应到新的语言中，避免灾难性遗忘和标记器效率低下的问题，并通过添加目标语言的新标记和研究数据混合配方提高标记器的编码效率。实验证明，我们的配方在将英语预训练大型语言模型适应到匈牙利语和泰语方面，能够达到比开源模型更好的性能，同时对英语的回归影响很小。

Nov, 2023

利用大型语言模型从隐私保护掩码中恢复

使用大型语言模型，本研究探索了替代标记符的可行性，以保护用户隐私，分析了不同方法的实验结果，在下游语言建模任务中实现了与原始数据训练相媲美的性能。

Sep, 2023

LLM 培训的标记器选择：微不足道还是至关重要？

在大规模预训练语言模型（LLMs）中，我们进行了一项全面研究，探究了分词器选择对下游性能、训练数据集和词汇量的影响。研究发现，分词器的选择可以显著影响模型的下游性能、训练和推理成本，并指出常用的分词器评估指标并不能准确预测模型性能，特别是多语言分词器在词汇量方面需要比英语增加三倍。在训练多语言 LLMs 时，仅采用英语分词器会导致严重的性能下降和高达 68% 的额外训练成本，因为其分词词汇表效率低下。

Oct, 2023