信息抽取研究：注意分词！

Mar, 2023

An Information Extraction Study: Take In Mind the Tokenization!

Christos Theodoropoulos, Marie-Francine Moens

TL;DR研究发现通过使用字符作为深度学习模型的输入，可以在生物医学文本信息提取方面实现最先进的性能且无需进行传统的分词处理。

Abstract

Current research on the advantages and trade-offs of using characters, instead of tokenized text, as input for deep learning models, has evolved substantially. New token-free models remove the traditional tokenization

character-based models tokenization information extraction biomedical texts deep learning

发现论文，激发创造

学习您的标记：用于语言建模的单词汇总分词

这篇论文通过学习词边界将字节 / 字符聚合成词表示，并在主要语言模型中解码个别字符 / 字节，结果表明这种分词方式在代表下一个词的预测模型测试中表现得比子词和字节 / 字符模型更好，特别是在稀有词方面达到了 30 倍的效果提升。

Oct, 2023

无需标记级监督的端到端信息提取

本文提出了一种基于指针网络的端到端模型，可以在不需要 token 级标签的情况下直接从原始文本和输出文本对中训练模型，该模型在 ATIS 数据集、MIT 餐厅语料库和 MIT 电影语料库上进行了评估，并与使用 token 级标签的神经基线进行了比较，取得了与基线几乎相同的竞争结果，证明了在不需要 token 级标签的情况下实现端到端信息提取的可行性。

Jul, 2017

从词到字：自然语言处理中开放词汇建模和分词的简史

本文通过调研 pre-neural 和 neural era 中的多种技术，探讨自然语言处理中的 “微观结构”（从字节到词组）建模方式是否应采用字符级或字节级处理，或采取分词处理的基于子字的方法，得出结论：没有一种万能的处理方式适用于所有情况，仍需要认真考虑分词对于不同应用场景的重要性。

Dec, 2021

分词不足：分词的诅咒

大型语言模型存在分词问题，导致对错别字、长度差异和标记内部结构的忽视。本研究通过探究复杂问题解决、标记结构探测和对错别字的抵抗力来系统地调查这些挑战及其对大型语言模型的影响，并展示模型参数缩放与子词规范化对解决这些问题的作用。

Jun, 2024

是否对文本进行标记化：跨语言转移的文本表示的比较研究

选择一个合适的分词方案通常是低资源跨语言转移的瓶颈。为了理解文本表示选择的后续影响，我们对具有不同文本表示模式的语言模型进行了比较分析，包括 2 个基于分词的模型（BERT，mBERT）、一个基于图像的模型（PIXEL）和一个基于字符级别的模型（CANINE）。通过提出的评分语言系数（LQ），我们在 19 种源语言和 133 种目标语言上执行了涵盖 POS 标记、依赖解析和 NER 的实验证明了基于图像的模型在语言密切相关且具有相似视觉脚本的情况下，在跨语言转移中表现出色。然而，在偏向于词义（POS，NER）的任务中，基于分词的模型表现优越。此外，在强依赖于词汇关系的依赖解析任务中，具有字符级别关注的模型胜过其他模型。最后，根据我们的发现，我们提出了一个基于我们的研究成果的建议方案，以指导根据任务和语言要求进行模型选择。

Oct, 2023

无需分词的多语言预训练模型的多维度评估

综合比较多语言预训练模型的效率时，在考虑内存使用、推理速度和数据健壮性等方面，基于子词的模型仍然是许多场景下更可靠的选择，此为当前研究结果，建议未来的 tokenizer-free 方法在设计和评估模型时也要考虑这些因素。

Oct, 2022

法语医学口罩语言模型中的 tokenization 有多重要？

深入探讨法语生物医学领域中子词标记化的复杂性，并确定可以进行进一步改进的领域，同时分析了包括 BPE 和 SentencePiece 在内的经典标记化算法，并引入了一种将富含形态素的词分割与现有标记化方法整合的原始标记化策略。

Feb, 2024

从文件中提取信息：实际场景中的问答与记号分类

通过与传统标记分类方法的比较，我们发现当处理较短、干净的实体时，最好使用基于标记分类的方法，而 QA 方法可以成为嘈杂环境或长实体用例的良好替代方案。

Apr, 2023

数据到文本自然语言生成的序列到序列模型：基于单词 vs 字符的处理和输出多样性

比较基于单词和字符的序列到序列模型在数据到文本自然语言生成方面的表现，进一步分析了两者输入表示之间的差异和生成文本的差异性，并通过对模板产生的合成训练数据的控制性实验展示神经模型学习新组合模板的能力。

Oct, 2018

关于 LLMs 中的分词理论

通过研究变压器在简单数据生成过程上的行为，我们探讨了词汇标记的理论视角，发现词汇标记对于变压器模型的训练是必要的，并验证了合适的词汇标记可以使变压器模型在学习 k 阶马尔可夫源的概率时达到近乎最优的结果。

Apr, 2024