BriefGPT.xyz
Ask
alpha
关键词
subword tokenization
搜索结果 - 24
ICLR
NodePiece:大规模知识图谱的组合和参数高效表示
本文通过借鉴 NLP 中常用的次词元素处理技术,探索更具参数效率的节点嵌入策略,提出了一种基于锚节点的方法 NodePiece,构建了一个定长的子实体单元词汇表,展示了该方法的性能在节点分类、链路预测和关系预测任务中具有竞争力且参数更少。
PDF
3 years ago
Subword 池化有所不同
探讨分词和子词池化对两个大规模多语言模型在词汇计量、词性标注和命名实体识别等三个任务中的影响,并提出使用小型 LSTM 模型对子词进行池化处理的最佳方案。
PDF
3 years ago
EMNLP
Char2Subword:利用强健的字符组合扩展子词嵌入空间
提出一种基于字符的子词模块 (char2subword),它可以学习预训练模型 (BERT) 中的子词嵌入表,并通过预训练进一步集成到 BERT 中,从而显著提高在社交媒体语言代码切换评估 (LinCE) 的表现。
PDF
4 years ago
EMNLP
Byte Pair Encoding 不适用于语言模型预训练
分析使用不同词汇分割方法,如 BPE 和 unigram 在提前训练 Transformer 语言模型时对其细微的影响,并比较它们的效果,在任务绩效中发现 unigram 的方法匹配或优于 BPE,建议开发者在预训练时采用 unigram
→
PDF
4 years ago
Prev
Next