Feb, 2025
多尺度字节语言模型——用于因果百万长度序列建模的分层架构
Multiscale Byte Language Models -- A Hierarchical Architecture for
Causal Million-Length Sequence Modeling
TL;DR本研究针对字节语言模型在处理超长字节流时遇到的建筑范式问题,提出了一种新的多尺度字节语言模型(MBLM)。该模型通过在单GPU上训练5M字节的上下文窗口,实现了在在单模态和多模态任务中高效处理极长序列的能力,且展现出强大的适应性,推动了全模态基础模型的发展。