Apr, 2023

使用随机矩阵理论将 Transformer 扩展到 1M 个标记及以上

TL;DR运用循环记忆技术扩展了 BERT 在自然语言处理中的作用,在保持高精度的同时,将模型的有效上下文长度提高到两百万个 tokens,具有广泛的应用潜力。