理解和减轻语言模型中的分词偏差
这篇论文通过学习词边界将字节 / 字符聚合成词表示,并在主要语言模型中解码个别字符 / 字节,结果表明这种分词方式在代表下一个词的预测模型测试中表现得比子词和字节 / 字符模型更好,特别是在稀有词方面达到了 30 倍的效果提升。
Oct, 2023
通过研究变压器在简单数据生成过程上的行为,我们探讨了词汇标记的理论视角,发现词汇标记对于变压器模型的训练是必要的,并验证了合适的词汇标记可以使变压器模型在学习 k 阶马尔可夫源的概率时达到近乎最优的结果。
Apr, 2024
大型语言模型存在分词问题,导致对错别字、长度差异和标记内部结构的忽视。本研究通过探究复杂问题解决、标记结构探测和对错别字的抵抗力来系统地调查这些挑战及其对大型语言模型的影响,并展示模型参数缩放与子词规范化对解决这些问题的作用。
Jun, 2024
本文研究自回归语言模型中计算字符序列概率的方法,提出了一种基于重要性采样的算法估计边缘概率,并在一系列尖端模型和数据集上进行比较,结果表明在大多数情况下,对边缘化的忽略导致的对数似然差异小于 0.5%,但对于长且复杂的数据则更加明显。
Jun, 2023
研究显示,语言模型在处理不同语言时存在标记化差异,导致部分语言社区无法公平访问商业语言服务、处理时间和网络延迟,并限制了模型学习的上下文,因此建议使用多语种公平标记器来训练未来的语言模型。
May, 2023
本文研究神经语言模型的 tokenization 对模型性能评估的作用,并提出用边缘似然进行评估。在使用采样的不同估算器比较后,发现边缘困惑度可以更好地反应模型性能,特别是在领域外数据中能表现出更好的鲁棒性。此外,通过测量 tokeniser 信息熵,结果还显示,边缘困惑度与 tokeniser 不确定性之间存在联系。最后,本文讨论了研究结果对语言模型训练和评估的一些影响。
Sep, 2021
分析使用不同词汇分割方法,如 BPE 和 unigram 在提前训练 Transformer 语言模型时对其细微的影响,并比较它们的效果,在任务绩效中发现 unigram 的方法匹配或优于 BPE,建议开发者在预训练时采用 unigram 方法。
Apr, 2020
通过追踪分词器从词级到子词级的演变,本研究分析了分词器如何在增强模型适应性的同时控制复杂度方面平衡标记和类型。根据认知科学中的 “最省力原则”,本文提出了一种新的 LLN 分词器 LiB 模型,它可以自主学习由子词、词和多词表达式组成的综合词汇,从而有效减少标记和类型的数量。比较评估显示,LiB 分词器优于现有的词级和 BPE 分词器,为分词器开发提供了创新方法,并提示未来的基于认知科学的分词器可能更为高效。
Mar, 2024
本文旨在量化并减少语言模型中表现出的情感偏见,该文分析了在给定的条件下(例如写作提示)和语言模型中,引起生成的文本情感发生变化的敏感属性(例如国家名称,职业,性别)的值变化的影响。我们采用公平机器学习文献中的个体和团体公正度量来量化情感偏见,并证明在两种不同的语料库(新闻文章和维基百科)上训练的大规模模型存在相当高的偏见。我们随后提出使用嵌入和情感预测导出的正则化方法,该方法应用于语言模型的潜在表示。该正则化提高了公正度量,同时保持了可比水平的困惑度和语义相似性。
Nov, 2019