- Vaporetto:基于改进的逐点线性分类的高效日语分词
本文提出了一种改进日语分词运行效率的方法,基于点对点线性分类(PLC)框架,通过将整个分词过程化简为一系列线性分类问题,通过利用 PLC 框架和任务定义的特点来优化分词,包括通过组合多个分类为基于数组的操作,通过内存优化的自动机实现高效的特 - 理解和减轻语言模型中的分词偏差
通过提出一种新颖的算法,我们可以从单词化数据中得到无偏估计,而不需要调整模型。通过 Markov 链设置,我们从标记化语言模型中精准恢复了转换概率。
- 无监督形态树分词器
通过引入形态结构指导标记,提出了一种深度模型来诱导单词的字符级结构,该方法在形态分割任务和语言建模任务上表现良好,并优于 BPE 和 WordPiece 等广泛采用的方法。
- 词汇基础的子词切分
我们提出了三个在标记化和子词分割中的创新。首先,我们建议使用 Morfessor 的无监督形态分析作为预标记化。其次,我们提出了一种代数方法来获取基于词嵌入空间的子词嵌入。基于此,我们设计了一种使用嵌入的新型子词分割算法,确保该过程考虑了词 - 分词不足:分词的诅咒
大型语言模型存在分词问题,导致对错别字、长度差异和标记内部结构的忽视。本研究通过探究复杂问题解决、标记结构探测和对错别字的抵抗力来系统地调查这些挑战及其对大型语言模型的影响,并展示模型参数缩放与子词规范化对解决这些问题的作用。
- TokenRec: 学习为基于 LLM 的生成推荐摘要生成对应 ID 的方式
为了提高下一代推荐系统的性能,该研究使用大规模语言模型(LLMs)来加强推荐系统,通过对用户和项目进行索引化以保证 LLMs 和推荐对齐,同时引入了一种名为 TokenRec 的新框架,提供了有效的 ID 索引策略和高效的检索方法,能够有效 - 4DHands: 使用 Transformer 重建 4D 交互手势
通过 4DHands 方法,从单目输入中恢复互动手部网格及其相对运动,处理了自由手图像输入和两只手的位置关系的限制,并通过新颖的分词和特征融合策略提出了一种基于 Transformer 的架构。
- 令牌化的重要性!通过挑战其令牌化降低大型语言模型的性能
基于大型语言模型的令牌划分漏洞的研究,提出了对模型进行攻击的对抗性数据集(ADT),通过挑战语言模型对输入的划分,揭示令牌划分对模型性能的重要影响,并为改善语言模型能力提供优化划分过程和算法的研究方法。
- SpaceByte:大规模语言模型中消除分词的研究
提出了一种新颖的字节级解码器架构 SpaceByte,通过在层次结构中插入更大的 Transformer 块对字节级别和子词级别语言模型建模的性能差距进行优化,通过在特定的字节后插入这些更大块,如空格字符,来提高性能。实验结果显示,在固定的 - 关于 LLMs 中的分词理论
通过研究变压器在简单数据生成过程上的行为,我们探讨了词汇标记的理论视角,发现词汇标记对于变压器模型的训练是必要的,并验证了合适的词汇标记可以使变压器模型在学习 k 阶马尔可夫源的概率时达到近乎最优的结果。
- 引入音节分词技术用于低资源语言:以斯瓦希里语为例研究
我们提出了一种音节分词器,并采用实验为中心的方法验证所提出的分词器在斯瓦希里语中的有效性。我们使用 GPT2 进行文本生成实验,结果证明所提出的音节分词器能够有效地表示斯瓦希里语。
- 通过字符匹配实现标记对齐用于子词补全
该论文研究了一种通过回溯和对齐机制来解决生成模型中的标记化问题,从而提高模型在处理部分输入时的性能。该方法对包括代码补全和文本自动完成在内的多种场景都有显著改善,同时只有轻微的时间成本增加。
- 拆解标记化:评估文本压缩及其与模型性能的相关性
通过变化训练数据的数量,我们研究了 BPE tokenizers 的压缩能力对预训练语言模型下游性能的影响,我们发现压缩能力与模型性能存在相关性,因此构建压缩效果更好的 tokenizer 是一个有前景的研究方向。
- 通过迁移学习使用 ULMFiT 对孟加拉文学进行作者归属
提出了一种使用 AWD-LSTM 架构和有效的迁移学习方法来解决孟加拉文学领域的作者归属问题,通过分析不同的标记化方法,并介绍了一个包含 16966 份样本文本和 13.4 + 百万词汇的公开孟加拉作者归属数据集(BAAD16),此外还释放 - 使用 MultiQ 评估大型语言模型的基础多语言能力
研究表明,尽管当前大部分开放式语言模型主要面向英语或少数几种高资源语言,人们却在多种语言中使用这些模型。本文通过引入 MultiQ 标准测试并评估 27.4k 个不同语言的基本开放式问答问题,探讨了现有开放式语言模型在超越其预定用途方面的多 - 重新思考分词:为大型语言模型打造更好的分词器
通过追踪分词器从词级到子词级的演变,本研究分析了分词器如何在增强模型适应性的同时控制复杂度方面平衡标记和类型。根据认知科学中的 “最省力原则”,本文提出了一种新的 LLN 分词器 LiB 模型,它可以自主学习由子词、词和多词表达式组成的综合 - 分词不仅仅是压缩
通过广泛实验,我们发现较少的令牌并不会导致更好的下游性能,从而对有效的标记化原因的理解产生了怀疑。我们评估了标记化的三个阶段的设计决策,特别强调了预标记化的重要性和使用字节对编码 (BPE) 进行初始化词汇构建的好处。
- Tokenization 计数: Tokenization 对前沿 LLM 模型中的算术的影响
数字分词选择对算术任务模型效果产生显著影响;使用从右到左的分词方式能够明显提升性能,并显示出模型计算具有系统性;针对左到右分词方向模型的错误模式进行了深入分析,发现模型能够轻松转换分词方式
- COLINGextit {Tokenization and the Noiseless Channel}》两个反例
通过分析两种变体的 BPE 分词方法,本研究揭示了用 Rényi 效能作为分词度量指标的局限性,为构建更准确的预测器提供了启示。
- EMNLP多词标记化用于序列压缩
我们提出了一种名为 MWT 的多词标记器,它通过将频繁出现的多词表达式表示为单个标记,从而超越词边界。MWT 产生更紧凑高效的标记化,从而提供两个好处:(1)在固定序列长度和预算的情况下,提高性能,因为能够更全面地覆盖输入数据;(2)通过减