Nov, 2022

字节级表示在语言建模中的应用

TL;DR该论文提出了一种新的方法Byte2Word,通过引入交叉注意力网络建立单词级别的表示,并基于单词级别的隐藏状态进行子词级别的预测,从而实现了更精简的输入嵌入方式,同时在语言模型和文本分类上表现出与强大的基准模型BERT相当的性能。