Dec, 2021
从词到字:自然语言处理中开放词汇建模和分词的简史
Between words and characters: A Brief History of Open-Vocabulary
Modeling and Tokenization in NLP
TL;DR本文通过调研pre-neural 和 neural era中的多种技术,探讨自然语言处理中的“微观结构”(从字节到词组)建模方式是否应采用字符级或字节级处理,或采取分词处理的基于子字的方法,得出结论:没有一种万能的处理方式适用于所有情况,仍需要认真考虑分词对于不同应用场景的重要性。