分析子词切分的认知可信度
我们提出了三个在标记化和子词分割中的创新。首先,我们建议使用 Morfessor 的无监督形态分析作为预标记化。其次,我们提出了一种代数方法来获取基于词嵌入空间的子词嵌入。基于此,我们设计了一种使用嵌入的新型子词分割算法,确保该过程考虑了词汇意义。第三,我们引入了一种基于子词二元模型的高效分割算法,可使用词汇感知分割方法进行初始化,以避免在推理时使用 Morfessor 和大型嵌入表。我们使用两个内在指标评估了所提出的方法,并在两个下游任务上测试了其性能:词性标注和机器翻译。我们的实验证明,在各语言上,通过在词素边界上评估的分割精度和改进的 Rényi 效率方面,该分割的形态合理性得到了显著提高。尽管所提出的标记化方法对自动翻译质量影响不大,但我们观察到在词性标注这个更具形态学特征的任务中一直存在性能提升。
Jun, 2024
综合比较多语言预训练模型的效率时,在考虑内存使用、推理速度和数据健壮性等方面,基于子词的模型仍然是许多场景下更可靠的选择,此为当前研究结果,建议未来的 tokenizer-free 方法在设计和评估模型时也要考虑这些因素。
Oct, 2022
探讨分词和子词池化对两个大规模多语言模型在词汇计量、词性标注和命名实体识别等三个任务中的影响,并提出使用小型 LSTM 模型对子词进行池化处理的最佳方案。
Feb, 2021
大型语言模型存在分词问题,导致对错别字、长度差异和标记内部结构的忽视。本研究通过探究复杂问题解决、标记结构探测和对错别字的抵抗力来系统地调查这些挑战及其对大型语言模型的影响,并展示模型参数缩放与子词规范化对解决这些问题的作用。
Jun, 2024
通过追踪分词器从词级到子词级的演变,本研究分析了分词器如何在增强模型适应性的同时控制复杂度方面平衡标记和类型。根据认知科学中的 “最省力原则”,本文提出了一种新的 LLN 分词器 LiB 模型,它可以自主学习由子词、词和多词表达式组成的综合词汇,从而有效减少标记和类型的数量。比较评估显示,LiB 分词器优于现有的词级和 BPE 分词器,为分词器开发提供了创新方法,并提示未来的基于认知科学的分词器可能更为高效。
Mar, 2024
这篇论文通过学习词边界将字节 / 字符聚合成词表示,并在主要语言模型中解码个别字符 / 字节,结果表明这种分词方式在代表下一个词的预测模型测试中表现得比子词和字节 / 字符模型更好,特别是在稀有词方面达到了 30 倍的效果提升。
Oct, 2023
本文旨在研究分词器对预训练语言模型在 scriptio continua 语言(如日语)下游性能的影响,结果表明对于任何类型的任务,使用 Byte-Pair-Encoding 或 Unigram 作为子词分割器都比 WordPiece 更佳,并且每个下游任务都有一个不同的最佳形态分析器。
Jun, 2023
本文提出新的标准以评估子词符号化器中的词汇表示质量和词汇重叠度,并发现跨语言单词表的重叠实际上可能对某些下游任务(如 POS、依赖树标记)产生负面影响,而在命名实体识别和句子级任务(如跨语言检索、NLI)中分享词汇表是有益的。此外,本文还观察到多语种语言模型中特定语言标记的覆盖范围显著影响单词级任务。因此,我们为未来的模型开发人员提供了详细的指导,以选择最适合他们特定应用程序的符号化器。
May, 2023
该研究探讨了子词分词在神经语言模型和机器翻译系统中的应用,并提出了一种基于 Huffman 编码的分词方法,表明非常高频的单词分别出现,是达到比贪心算法高的分数的一个相对较重要的因素。
Jun, 2023
我们提出了一种联合内在 - 外在评估框架用于子词切分,通过 UniMorph Labeller 工具对子词切分进行内在评估,将其分类为形态还是外语;然后通过 Out-of-Vocabulary Generalization Challenge 1.0 基准进行外在评估,包括三个新指定的下游文本分类任务;我们的实证研究发现,UniMorph Labeller 的准确率达到了 98%;而在所有语言模型(包括 ALBERT、BERT、RoBERTa 和 DeBERTa)中,与形态切分相比,外语切分导致了更差的泛化能力,影响了词义的语义组合性。
Apr, 2024