Jan, 2024

Attendre: 基于内存的 Transformer 中的检索式等待以实现长上下文处理

TL;DR使用逐出策略和 Attendre 层,在处理长序列输入时减少内存需求并适应各种架构,以提高 LM 的效果和性能。