动态分词的(大)语言模型改造
通过从大型语料库中检索与前面token相似的文档块来改善自回归语言模型的条件,并创建Retrieval-Enhanced Transformer(RETRO),该模型在Pile数据集上的表现与GPT-3和Jurassic-1相当。 RETRO结合一个冻结的Bert检索器,一个可微分的编码器和一个分块交叉关注机制,可以基于比通常在训练期间消耗的数据量高一个数量级的数据预测token,并在fine-tuning后转化为下游的knowledge-intensive任务,例如问答等,这一研究为利用显式记忆来提高语言模型的性能开辟了新的途径。
Dec, 2021
这篇论文通过学习词边界将字节/字符聚合成词表示,并在主要语言模型中解码个别字符/字节,结果表明这种分词方式在代表下一个词的预测模型测试中表现得比子词和字节/字符模型更好,特别是在稀有词方面达到了30倍的效果提升。
Oct, 2023
本文介绍了可拓展分词作为一种可选方法,可实现大语言模型(LLMs)上下文的灵活扩展,以提供更多信息。经过综合实验证明,可拓展分词是一种有效、高效、灵活和兼容的方法,可扩展LLMs的上下文。
Jan, 2024
我们提出了一种名为MWT的多词标记器,它通过将频繁出现的多词表达式表示为单个标记,从而超越词边界。MWT产生更紧凑高效的标记化,从而提供两个好处:(1)在固定序列长度和预算的情况下,提高性能,因为能够更全面地覆盖输入数据;(2)通过减少序列长度,使推理速度更快、负载更轻,而性能几乎不受影响。我们的结果表明,MWT在较短的序列长度上更加稳健,从而通过早期序列截断实现主要的加速。
Feb, 2024
语言模型与分词器(tokenizer)的绑定限制了其灵活性,本文提出了零-shot分词器迁移问题,并通过训练超网络解决了初始化嵌入向量的挑战,进一步缩短了分词序列,从而实现了对语言模型与其分词器的分离。
May, 2024
本研究解决了大语言模型中分词器效率不足的问题,提出了一种通过替换分词器来提升模型表示和处理效率的新方法。实验结果显示,该方法在保证模型性能的同时,显著提高了长文本的解码速度,对模型的应用具有重要影响。
Oct, 2024
本文研究了分词在现代神经语言模型中的重要性,提出了一个有限状态传导框架,以有效编码正规语言的所有可能分词方案。研究表明,流行的分词方案如字节对编码(BPE)和最大匹配(WordPiece)可以融入此框架中,进而实现引导生成中模式的精准匹配,这为未来的模型输出提供了新的约束方法。
Oct, 2024
该研究解决了现有子词标记化模型在面对拼写错误和多语言的一致性压缩率等问题的局限性。通过引入动态标记删除机制,MrT5在编码器中能够有效缩短输入序列长度,同时保持关键上下文信息,从而提高推理效率。实验表明,MrT5在不同语言上表现出色,相较于旧有模型在性能影响较小的情况下,序列长度最小可缩减80%。
Oct, 2024