可爱:测量大型语言模型对其标记的理解
通过分析预训练语言模型的嵌入层,研究表明该模型对于整词和子词令牌的内部字符构成也有很高的学习能力。虽然该模型没有直接使用字符信息,但它仍然能够拼写正确达到整体词汇量的三分之一,并在所有令牌类型上达到了高平均字符模型重叠度。而且,通过额外的字符信息来丰富子词模型的训练并不能提高其在语言建模上的性能。总体来说,该研究表明语言建模目标会激励模型隐式地学习拼写知识,而显式地教授拼写知识并不能提高其性能。
Aug, 2021
该研究探讨了在使用基于子词分割的预训练语言模型(PLMs)中,字符级信息被编码的机制以及这些模型如何获得英语语言字符信息,结论表明这些模型可以很好地编码字符级信息并通过一系列实验证明这些结果是普遍适用的,并归纳了多种现象对于知识获取的作用,其中自然变化是其中之一
Jun, 2022
Symbol-LLM系列模型通过收集各种符号任务并注入符号知识,解决了大型语言模型面临的符号间关系和符号中心与自然语言中心能力平衡的挑战,实验结果表明Symbol-LLM系列模型在符号和自然语言任务上具有平衡和优越的性能。
Nov, 2023
通过研究语料数据稀缺对子词分词及大型语言模型中单词表示的影响,以及Byte-Pair Encoding (BPE)分词器在缺少特定词汇时与新代词性别错误相关性,提出了保持词语功能结构的新方法PTP来改善大型语言模型中的新代词一致性,实验证明PTP能够使新代词一致性从14.5%提升至58.4%。
Dec, 2023
本研究通过验证现行基于标记的大型语言模型在标记-字符关系方面的知识限制,并提出一种基于字符级或字节级标记的无标记模型,该模型在格式准确性方面表现优异,为解决生成中文古典诗歌的格式问题提供了一个可行的解决方案。
Jan, 2024
数字分词选择对算术任务模型效果产生显著影响;使用从右到左的分词方式能够明显提升性能,并显示出模型计算具有系统性;针对左到右分词方向模型的错误模式进行了深入分析,发现模型能够轻松转换分词方式
Feb, 2024
该研究论文通过分析现代大型语言模型对字组成的理解能力,并与词级性能进行比较,展示了大多数大型语言模型无法可靠地完成甚至是人类能够完美处理的简单任务,进而讨论了未来研究的潜在方向。
May, 2024
通过观察不同层次的标记表示之间的差异,我们提出了一种读取自回归LLM的隐式词汇表的方法,并展示了这种方法在Llama-2-7b和Llama-3-8B上的结果。
Jun, 2024
本研究解决了大型语言模型(LLMs)在处理文本时对正字法知识的理解程度这一问题。通过提出新的基准测试CUTE,论文设计了一系列任务来评估LLMs的正字法知识,并发现尽管大多数LLMs能够识别其符号的拼写,但在有效利用这些信息进行文本操作方面存在不足,从而质疑了这种知识的可推广性。
Sep, 2024
本研究针对当前语言模型中使用子词级标记算法的局限性展开,提出无标记的音素和字素基语言模型的新方法。研究表明,基于字符级词汇的小型Llama架构模型在标准句法和新的词汇/语音基准测试中表现出色,且音素模型在不受字素偏见影响的情况下几乎与字素模型持平。这些发现为创造更具语言合理性的语言模型提供了有希望的方向,尤其适用于语言习得与处理的计算研究。
Oct, 2024