COLINGFeb, 2024
法语医学口罩语言模型中的 tokenization 有多重要?
How Important Is Tokenization in French Medical Masked Language Models?
Yanis Labrak, Adrien Bazoge, Beatrice Daille, Mickael Rouvier, Richard Dufour
TL;DR深入探讨法语生物医学领域中子词标记化的复杂性,并确定可以进行进一步改进的领域,同时分析了包括 BPE 和 SentencePiece 在内的经典标记化算法,并引入了一种将富含形态素的词分割与现有标记化方法整合的原始标记化策略。