BriefGPT.xyz
Dec, 2020
快速 WordPiece 分词
Linear-Time WordPiece Tokenization
HTML
PDF
Xinying Song, Alex Salcianu, Yang Song, Dave Dopson, Denny Zhou
TL;DR
本文提出WordPiece的高效算法以及针对单词和一般文本的标记化方法,包括将预标记文本和线性时间算法相结合,此方法相对于现有方法可提高8.2倍到5.1倍的效率。
Abstract
wordpiece
tokenization
is a subword-based
tokenization
schema adopted by BERT: it segments the input text via a longest-match-first
→