ICMLFeb, 2024

增强时间变换循环神经网络的多个时间观点

TL;DR我们引入了多个时间视角的概念,一种适用于循环神经网络(RNN)架构,以增强其对顺序数据的理解的新方法。我们将此方法应用于 Receptance Weighted Key Value(RWKV)架构,并取得了显著的改进效果,解决了在单个隐藏状态中保留所有历史信息的固有挑战。我们的方法通过最少的参数增加(甚至仅为原始参数数量的 0.04%),实现了这种改进。此外,多个时间视角所需的额外参数可以在最小的计算开销下进行微调,避免了完全的预训练需求。研究中包括的实证结果和剃除研究验证了我们方法的有效性,并展示了在多个基准测试中改进的性能。