BriefGPT.xyz
大模型
Ask
alpha
关键词
neural tokenizer
搜索结果 - 1
一种无需词汇表的多语言神经标记器,用于端到端任务学习
本文提出了一种无需词汇表的神经分词器,通过处理多语言语料库中的独特单词来预训练基于字符的分词器,从而广泛增加语言间的单词多样性,进而克服了子词分词存在的一些问题,如无法进行端到端任务学习,适应性不足,以及在低资源语言中表现欠佳等,实验证明该
→
PDF
2 years ago
Prev
Next