Feb, 2024

Orchid:灵活和数据相关的序列建模卷积

TL;DROrchid 是一种新颖的架构,通过整合一种新的数据相关卷积机制,重新定义序列建模,以实现表达能力与计算效率之间的平衡。通过在核上采用专用条件神经网络,Orchid 核心部分是数据相关的卷积层,它根据输入数据动态调整其核。通过门控操作和动态的数据相关卷积核,Orchid 可以在保持效率和准线性可扩展性的同时捕捉长程依赖和上下文学习。我们在多个领域对 Orchid 进行了严格评估,包括语言建模和图像分类,以展示其性能和广泛应用性。我们的实验表明,相比于 BERT 和 Vision Transformers 等传统基于注意力机制的架构,Orchid 架构不仅在模型尺寸较小的情况下表现更好,还能将可行的序列长度超出密集注意力层的限制。这一成就代表了更高效、可扩展的序列建模深度学习模型的重要进步。