BriefGPT.xyz
May, 2024
消除子词对字符级文本填充的增强
Empowering Character-level Text Infilling by Eliminating Sub-Tokens
HTML
PDF
Houxing Ren, Mingjie Zhan, Zhongyuan Wu, Hongsheng Li
TL;DR
我们引入了FIM-SE方法,通过使用一种基于行级格式的方式避免在推理过程中预测任何子标记,从而解决了字符级填充任务。此外,我们还引入了两个特殊标记来表示其余不完整行,从而增强了生成的指导。大量实验证明了我们提出的方法优于以前的方法,提供了显著的优势。
Abstract
In
infilling tasks
,
sub-tokens
, representing instances where a complete token is segmented into two parts, often emerge at the boundaries of prefixes, middles, and suffixes. Traditional methods focused on trainin
→