BriefGPT.xyz
Ask
alpha
关键词
tokenization scheme
搜索结果 - 2
是否对文本进行标记化:跨语言转移的文本表示的比较研究
选择一个合适的分词方案通常是低资源跨语言转移的瓶颈。为了理解文本表示选择的后续影响,我们对具有不同文本表示模式的语言模型进行了比较分析,包括 2 个基于分词的模型(BERT,mBERT)、一个基于图像的模型(PIXEL)和一个基于字符级别的
→
PDF
9 months ago
ACL
无回归估计数字
改变语言模型的词汇表,而不是架构,可以更好地处理数字;在预测掩码数字和数值事实估计方面具有相似的性能,这要归功于仔细设计的标记化方案。
PDF
9 months ago
Prev
Next