CodeBPE: 大规模语言模型在源代码上预训练的次词元化选项研究

ICLRAug, 2023

CodeBPE: 大规模语言模型在源代码上预训练的次词元化选项研究

CodeBPE: Investigating Subtokenization Options for Large Language Model Pretraining on Source Code

PDF

Nadezhda Chirkova, Sergey Troshin

TL;DR通过对源代码进行大规模语言模型预训练和不同子记号化选项的研究，本文旨在鉴定有效且长度高效的子记号化，并提出了一种可降低 17% 平均长度且不会降低下游性能的子记号化方法，进而提高了 0.5-2% 的质量。

Abstract

Recent works have widely adopted large language model pretraining for source code, suggested source code-specific →

source code language model pretraining subtokenization code-specific

发现论文，激发创造

Byte Pair Encoding 不适用于语言模型预训练

分析使用不同词汇分割方法，如 BPE 和 unigram 在提前训练 Transformer 语言模型时对其细微的影响，并比较它们的效果，在任务绩效中发现 unigram 的方法匹配或优于 BPE，建议开发者在预训练时采用 unigram 方法。

Apr, 2020

分词不足：分词的诅咒

大型语言模型存在分词问题，导致对错别字、长度差异和标记内部结构的忽视。本研究通过探究复杂问题解决、标记结构探测和对错别字的抵抗力来系统地调查这些挑战及其对大型语言模型的影响，并展示模型参数缩放与子词规范化对解决这些问题的作用。

Jun, 2024

如何充分利用分词器进行预训练和领域自适应

我们的研究表明，分词对于现代 LLMs 至关重要，而且往往被忽视。我们通过在代码生成任务中对 tokenizer 设计进行了详细实验，并提出了分词器超参数选择和在预训练 LLMs 中切换分词器的建议。我们发现，在超过 500 亿个标记的细调过程中，可以对预训练 LLMs 的分词器进行专门优化，从而显著提高生成速度和有效上下文大小。

Feb, 2024

重新思考分词：为大型语言模型打造更好的分词器

通过追踪分词器从词级到子词级的演变，本研究分析了分词器如何在增强模型适应性的同时控制复杂度方面平衡标记和类型。根据认知科学中的 “最省力原则”，本文提出了一种新的 LLN 分词器 LiB 模型，它可以自主学习由子词、词和多词表达式组成的综合词汇，从而有效减少标记和类型的数量。比较评估显示，LiB 分词器优于现有的词级和 BPE 分词器，为分词器开发提供了创新方法，并提示未来的基于认知科学的分词器可能更为高效。

Mar, 2024

无需分词的多语言预训练模型的多维度评估

综合比较多语言预训练模型的效率时，在考虑内存使用、推理速度和数据健壮性等方面，基于子词的模型仍然是许多场景下更可靠的选择，此为当前研究结果，建议未来的 tokenizer-free 方法在设计和评估模型时也要考虑这些因素。

Oct, 2022

自适应分词的语言模型高效域适应

通过适应标记器，将预训练语言模型转移到新领域，提供了与基于专门领域的预训练方法相当的性能，同时生成的模型更小且训练和推断时间更短。

Sep, 2021

使用字节级子词训练多语言预训练语言模型

本文介绍了使用 Byte-Level BPE 技术训练 NEZHA 多语言预训练语言模型，并通过多语言 NLU 任务验证其性能显着优于 Google 多语言 BERT 和原始 NEZHA 模型。

Jan, 2021

预训练语言模型对源代码的结构分析

此篇论文分析了预训练语言模型，尤其是 CodeBERT 和 GraphCodeBERT 对源代码的结构性质，通过对注意力分析，词嵌入的探索和语法树归纳等方面进行全面分析，揭示出了一些深入的发现，为今后的相关研究提供了启示。

Feb, 2022

法语医学口罩语言模型中的 tokenization 有多重要？

深入探讨法语生物医学领域中子词标记化的复杂性，并确定可以进行进一步改进的领域，同时分析了包括 BPE 和 SentencePiece 在内的经典标记化算法，并引入了一种将富含形态素的词分割与现有标记化方法整合的原始标记化策略。

Feb, 2024

通过语言学信息的次词单位分词和次字符分解来提升韩文 NLP 任务

我们介绍了一种考虑词素的子词切分方法，利用字符的分解方法来解决字节对编码（BPE）在韩语中应用所面临的挑战，韩语的特点是丰富的语态和独特的书写系统。我们的方法在预训练语言模型（PLMs）中平衡了语言准确性和计算效率。我们的评估结果显示，该技术在整体上表现良好，显著提高了 NIKL-CoLA 句法任务的结果。这表明融合词素类型信息可以增强语言模型的句法和语义能力，表示采用更多的语言洞察力可以进一步提高性能，超越标准的形态分析。

Nov, 2023