Jun, 2024

OTCE:混合 SSM 和注意力机制,通过跨领域专家混合构建观察者 - 思考者 - 构思者 - 表达者

TL;DR将 Mamba 与 Transformer 架构相结合,利用二次自注意机制与有选择的状态空间处理长期依赖关系,并通过位置信息注入方法连接两种架构,设计了一种新的 Observer-Thinker-Conceiver-Expresser (OTCE) 架构,在小规模语言建模任务中能够与知名的中等规模开源语言模型竞争。