- 如何充分利用分词器进行预训练和领域自适应
我们的研究表明,分词对于现代 LLMs 至关重要,而且往往被忽视。我们通过在代码生成任务中对 tokenizer 设计进行了详细实验,并提出了分词器超参数选择和在预训练 LLMs 中切换分词器的建议。我们发现,在超过 500 亿个标记的细调 - 字节对编码是自动孟加拉语语音识别所需的全部
通过实验证明,对于孟加拉语,Byte pair encoding (BPE) 是一种在自动语音识别(ASR)中改善识别性能的有效分词方法,较佳的 BPE token 数量为大约 500-1000 个。
- 走向可信的语言模型:大型语言模型信息质量的研究
大型语言模型产生信息速度快,但信息质量不可信,由于预训练中的不可靠和有偏见的标记化导致信息质量下降,进而导致虚构和伪造信息。本文引入了一种新的数学信息质量评估方法,并分析了信息质量挑战和语言模型的可伸缩性规律。
- 令牌化对 LLaMa 俄文适应性的影响
通过词汇替换来解决 LLaMa 俄语适应问题,提高模型质量并加速微调和推理,同时减少内存消耗。
- Toucan: 基于标记的字符级语言建模
通过学习将字符表示组合成标记的方式,我们提出了 Toucan,它是一种改进的字符级模型,使其更具 “标记感知” 能力。与先前的方法相比,我们的方法在字符生成方面显著加快速度,同时保持了语言建模性能。我们还探索了学习到的字符序列的动态标记化与 - EMNLP预训练遮蔽语言模型中社会偏见和任务表现的预测因素分析
为了研究预训练遮蔽语言模型 (Masked Language Models) 的模型因素与所学习的社会偏见之间的关系,以及模型的下游任务性能,我们对 39 个不同模型大小、训练目标、分词方法、训练数据领域和语言进行了全面的研究。结果揭示了一 - EMNLP学习您的标记:用于语言建模的单词汇总分词
这篇论文通过学习词边界将字节 / 字符聚合成词表示,并在主要语言模型中解码个别字符 / 字节,结果表明这种分词方式在代表下一个词的预测模型测试中表现得比子词和字节 / 字符模型更好,特别是在稀有词方面达到了 30 倍的效果提升。
- 时间和音符时长的分词对深度学习的符号音乐建模的影响
本研究分析了常见的符号化音乐分词方法以及时间和音符长度表示对深度学习模型性能的影响,并通过多个任务的比较展示了直接信息在不同任务中提供更好的结果。
- ACL探索训练数据分布和子词标记对机器翻译中的性别偏见的影响
我们研究了标记化对机器翻译中的性别偏见的影响,着重关注训练数据中性别化职业名称频率、它们在次词标记器词汇表中的表示以及性别偏见之间的相互作用。
- Cabrita:弥合外语鸿沟
通过使用 Portuguese 文本对 3-billion-parameter 模型进行连续预训练,本研究提出了一种名为 Cabrita 的方法,成功解决了性能和高效标记化问题,并以可负担得起的成本实现。
- MorphPiece:远离统计语言表示
本研究提出了一种基于形态分词的语言学分词方案 MorphPiece,并使用此方法训练了一个基于 GPT 的语言模型 MorphGPT。相对于标准的 BPE 分词器,MorphGPT 具有更好的性能表现,包括在超大语言模型性能及 NLP 任务 - ACL从字符到词语:分层预训练语言模型用于开放词汇语言理解
该研究引入了一种新颖的开放词汇语言模型,包含两个层次:词级和序列级,并通过对字符的表示以及全局的序列级别上下文调整,使模型直接处理字符序列,而不是子词或词级别的词汇表,取得了比强基准表现更好的效果,并且具有文本破坏和域移位的鲁棒性。
- 使用一系列有问题且具有挑战性的生物医学句子比较分词器输出的变化
本研究通过比较不同分词器应用于生物医学句子时的输出,探究了各分词器性能的差异,结果表明对于包含专业术语和固定搭配的句子,规则匹配和神经网络分词器实现了类似的表现,但空格分词器的效果与其他分词器相比有所不同。
- 基于词汇表限制的下游任务导向神经分词器优化作为后处理
本文提出了一种优化已训练后的下游模型性能的分词方法,该方法通过限制词汇量并训练一个生成相应分词结果的分词器,达到更低的下游模型损失值,比现有方法在各项任务中都表现更佳。其中提出的基于 BiLSTM 的分词器能够比现有非神经网络分词方法更好地 - 如何通过操作分词来提高跨语言转移能力?对非规范化语言进行词性标注研究
研究 finetuning 预训练语言模型(PLMs)的挑战在于当在未预先训练的数据中出现前所未见的语言变化时,它们的分词器可能变得脆弱,导致在性能上下降,提出了一种在七种语言上用不同的方式衡量的调整标记方法,结果表明源数据和目标数据中单词 - 信息抽取研究:注意分词!
研究发现通过使用字符作为深度学习模型的输入,可以在生物医学文本信息提取方面实现最先进的性能且无需进行传统的分词处理。
- MEDBERT.de:医疗领域全面德语 BERT 模型
本文提出了一个针对德语医疗领域的预先训练的德语 BERT 模型,经过 4.7 百万德文医学文档的大规模语料库训练,取得了国内外八个医学基准测试的最新的最优表现。在评估模型整体性能的同时,本文对模型的能力进行了更深入的分析,探讨了数据去重对模 - 符号音乐的字节对编码
本文研究在深度学习任务中,如何使用符号音乐模态并采用 Byte Pair Encoding (BPE) 对音乐数据进行字符编码,以提高音乐生成和作曲家分类模型的性能和均匀度。
- 70 种语言的大规模多语音识别:分词、架构、泛化能力
本文研究了 70 种语言的大规模多语种 ASR 模型,并通过优化多重嵌入和输出模型的标记化策略,相对于单一语种模型,实现了 13.9%-15.6% 的平均 WER 改进,并展示了其泛化性和零样本学习能力在 Multilingual Libr - 无需分词的多语言预训练模型的多维度评估
综合比较多语言预训练模型的效率时,在考虑内存使用、推理速度和数据健壮性等方面,基于子词的模型仍然是许多场景下更可靠的选择,此为当前研究结果,建议未来的 tokenizer-free 方法在设计和评估模型时也要考虑这些因素。