MANTa: 高效基于梯度的分词技术用于鲁棒的端到端语言建模
本文提出了一种无需词汇表的神经分词器,通过处理多语言语料库中的独特单词来预训练基于字符的分词器,从而广泛增加语言间的单词多样性,进而克服了子词分词存在的一些问题,如无法进行端到端任务学习,适应性不足,以及在低资源语言中表现欠佳等,实验证明该神经分词器能显著提升多语言(NLI)和混合语言情感分析等任务的性能并且具有较强的鲁棒性。
Apr, 2022
综合比较多语言预训练模型的效率时,在考虑内存使用、推理速度和数据健壮性等方面,基于子词的模型仍然是许多场景下更可靠的选择,此为当前研究结果,建议未来的tokenizer-free方法在设计和评估模型时也要考虑这些因素。
Oct, 2022
这篇论文通过学习词边界将字节/字符聚合成词表示,并在主要语言模型中解码个别字符/字节,结果表明这种分词方式在代表下一个词的预测模型测试中表现得比子词和字节/字符模型更好,特别是在稀有词方面达到了30倍的效果提升。
Oct, 2023
基于字节的MambaByte模型是一种无需标记的语言模型,它在计算效率方面表现出色,优于其他基于字节的模型,并且可以超过现有的基于子词的模型,因此可用于无需标记的语言建模。
Jan, 2024
我们提出了一种名为MWT的多词标记器,它通过将频繁出现的多词表达式表示为单个标记,从而超越词边界。MWT产生更紧凑高效的标记化,从而提供两个好处:(1)在固定序列长度和预算的情况下,提高性能,因为能够更全面地覆盖输入数据;(2)通过减少序列长度,使推理速度更快、负载更轻,而性能几乎不受影响。我们的结果表明,MWT在较短的序列长度上更加稳健,从而通过早期序列截断实现主要的加速。
Feb, 2024
在这篇论文中,我们研究了阈值词汇裁剪在字节对编码子词分词中的应用,这是一种后处理步骤,可以将罕见的子词替换为其组成的子词。尽管在机器翻译实现中建议删除罕见的子词以减小模型大小并提高模型性能,但我们的实验表明,在各种超参数设置下,词汇裁剪无法提高性能,甚至可能导致严重的性能下降。
Mar, 2024
提出了一种新颖的字节级解码器架构 SpaceByte,通过在层次结构中插入更大的 Transformer 块对字节级别和子词级别语言模型建模的性能差距进行优化,通过在特定的字节后插入这些更大块,如空格字符,来提高性能。实验结果显示,在固定的计算资源下,SpaceByte 的性能优于其他字节级架构,大致与分词的 Transformer 架构相匹配。
Apr, 2024
本文旨在从形式角度奠定分词(Tokenization)的基础,通过阐述和扩展随机映射类别的基本属性,我们提出了一个统一的框架来表示和分析分词器模型,同时讨论了设计和实施分词器模型所必不可少的统计和计算问题。这项工作向神经语言建模的稳健理论基础迈出了一步。
Jul, 2024