可爱：测量大型语言模型对其标记的理解

Sep, 2024

可爱：测量大型语言模型对其标记的理解

CUTE: Measuring LLMs' Understanding of Their Tokens

Lukas Edman, Helmut Schmid, Alexander Fraser

TL;DR本文研究大型语言模型（LLMs）在拼写知识方面的能力，提出了一个新基准CUTE来评估这些模型的正字法知识。结果显示，尽管大多数LLMs能识别其标记的拼写，但在有效利用这些信息编辑文本方面存在不足，这引发了关于其知识可推广性的质疑。

Abstract

Large Language Models (LLMs) show remarkable performance on a wide variety of tasks. Most LLMs split text into multi-character tokens and process them as atomic units without direct access to individual characters. This raises the question: To what extent can LLMs learn orthographic in

发现论文，激发创造

拼字比赛中的模型：语言模型隐式学习到了单词字符组成

通过分析预训练语言模型的嵌入层，研究表明该模型对于整词和子词令牌的内部字符构成也有很高的学习能力。虽然该模型没有直接使用字符信息，但它仍然能够拼写正确达到整体词汇量的三分之一，并在所有令牌类型上达到了高平均字符模型重叠度。而且，通过额外的字符信息来丰富子词模型的训练并不能提高其在语言建模上的性能。总体来说，该研究表明语言建模目标会激励模型隐式地学习拼写知识，而显式地教授拼写知识并不能提高其性能。

Aug, 2021

令牌知道它们的字符以及如何知道它们？

该研究探讨了在使用基于子词分割的预训练语言模型（PLMs）中，字符级信息被编码的机制以及这些模型如何获得英语语言字符信息，结论表明这些模型可以很好地编码字符级信息并通过一系列实验证明这些结果是普遍适用的，并归纳了多种现象对于知识获取的作用，其中自然变化是其中之一

Jun, 2022

Symbol-LLM: 面向大型语言模型的基础符号中心化界面

Symbol-LLM系列模型通过收集各种符号任务并注入符号知识，解决了大型语言模型面临的符号间关系和符号中心与自然语言中心能力平衡的挑战，实验结果表明Symbol-LLM系列模型在符号和自然语言任务上具有平衡和优越的性能。

Nov, 2023

您是在与 ['xem'] 或者 ['x', 'em'] 交谈吗? 关于标记化和处理LLM中的性别错误的研究

通过研究语料数据稀缺对子词分词及大型语言模型中单词表示的影响，以及Byte-Pair Encoding (BPE)分词器在缺少特定词汇时与新代词性别错误相关性，提出了保持词语功能结构的新方法PTP来改善大型语言模型中的新代词一致性，实验证明PTP能够使新代词一致性从14.5%提升至58.4%。

Dec, 2023

基于无词汇模型的语言模型生成更有准确格式的中国古典诗歌

本研究通过验证现行基于标记的大型语言模型在标记-字符关系方面的知识限制，并提出一种基于字符级或字节级标记的无标记模型，该模型在格式准确性方面表现优异，为解决生成中文古典诗歌的格式问题提供了一个可行的解决方案。

Jan, 2024

Tokenization计数: Tokenization对前沿LLM模型中的算术的影响

数字分词选择对算术任务模型效果产生显著影响；使用从右到左的分词方式能够明显提升性能，并显示出模型计算具有系统性；针对左到右分词方向模型的错误模式进行了深入分析，发现模型能够轻松转换分词方式

Feb, 2024

大型语言模型对词汇的字符组成缺乏理解

该研究论文通过分析现代大型语言模型对字组成的理解能力，并与词级性能进行比较，展示了大多数大型语言模型无法可靠地完成甚至是人类能够完美处理的简单任务，进而讨论了未来研究的潜在方向。

May, 2024

LLM中隐含词汇项的擦除表示

通过观察不同层次的标记表示之间的差异，我们提出了一种读取自回归LLM的隐式词汇表的方法，并展示了这种方法在Llama-2-7b和Llama-3-8B上的结果。

Jun, 2024

可爱的：测量大型语言模型对其符号的理解

本研究解决了大型语言模型（LLMs）在处理文本时对正字法知识的理解程度这一问题。通过提出新的基准测试CUTE，论文设计了一系列任务来评估LLMs的正字法知识，并发现尽管大多数LLMs能够识别其符号的拼写，但在有效利用这些信息进行文本操作方面存在不足，从而质疑了这种知识的可推广性。

Sep, 2024

小型语言模型如同小词汇：探究基于音素和字素的幼小拉马的语言能力

本研究针对当前语言模型中使用子词级标记算法的局限性展开，提出无标记的音素和字素基语言模型的新方法。研究表明，基于字符级词汇的小型Llama架构模型在标准句法和新的词汇/语音基准测试中表现出色，且音素模型在不受字素偏见影响的情况下几乎与字素模型持平。这些发现为创造更具语言合理性的语言模型提供了有希望的方向，尤其适用于语言习得与处理的计算研究。

Oct, 2024