关键词autoregressive language modeling
搜索结果 - 2
- SpaceByte:大规模语言模型中消除分词的研究
提出了一种新颖的字节级解码器架构 SpaceByte,通过在层次结构中插入更大的 Transformer 块对字节级别和子词级别语言模型建模的性能差距进行优化,通过在特定的字节后插入这些更大块,如空格字符,来提高性能。实验结果显示,在固定的 - ACL神经机器翻译中编码器 - 解码器是否冗余?
本研究探讨了将源文本和目标文本直接拼接并训练语言模型进行翻译的想法,通过对双语翻译、额外目标语单语数据翻译和多语言翻译的实验,结果表明这种替代方法与基线中的编码器 - 解码器 Transformer 模型表现相当,表明编码器 - 解码器架构