我们在这项工作中旨在建立起机器学习研究的两个重要领域之间的紧密联系:连续学习和序列建模。也就是说,我们提出将连续学习作为序列建模问题进行建模,使得先进的序列模型可以用于连续学习。通过采用元连续学习(MCL)框架,我们可以在元级别上对序列模型进行训练,应用于多个连续学习实验。作为我们新建模的具体示例,我们演示了将 Transformers 及其高效变体用作 MCL 方法的应用。我们在七个基准测试上进行了实验,涵盖了分类和回归问题,结果表明序列模型可以成为通用连续学习的一个有吸引力的解决方案。
Oct, 2023
线性 Transformer 能隐式地执行梯度下降算法和找到优化策略。
Feb, 2024
本文提出了基于新型 Scaled Dot-Product Attention 的连续输入流上的在线逐标记推断的 Continual Transformer Encoder,通过实验证明该算法在保持预测性能的情况下,可将每次预测的浮点运算次数降低 63 倍至 2.6 倍。
Jan, 2022
使用预训练 Transformers 并扩展它们与 Adapters,我们开发了一种方法来增量训练模型处理任务序列,成功地避免了灾难性遗忘并且在多个任务上表现良好。
Mar, 2022
本文提出了一种基于 transformer 架构的对比视觉转换器 (CVT) 框架,它设计了一种基于对比学习的强调学习策略,以实现在线学习的更好稳定性 - 可塑性权衡,并通过包含可学习的聚焦点来缓解遗忘。实验结果表明,CVT 方法在在线持续学习基准测试中达到最先进的性能,并有效缓解了灾难性的遗忘。
Jul, 2022
使用离线数据集,通过训练大型多样化模型,能够在只有少量示范数据的情况下,使自主代理器在新的任务上进行上下文学习。
Dec, 2023
通过梯度下降训练的具有 softmax 注意力机制的单层 transformer 在学习线性函数类的上下文学习动态方面取得了进展,并对平衡和不平衡特征数据进行了分析,证明了其收敛性和预测误差。
研究注意力机制的神经网络 transformer 采用渐变流进行单个线性自注意层的训练,实现在新的预测任务中使用标记示例的测试提示时具有预测误差与测试提示分布上最佳线性预测器相竞争的能力,且在多种分布转换下具有鲁棒性。
Jun, 2023
深度学习中基于 Transformer 和循环神经网络的顺序处理对于处理长序列数据和无限长度序列数据具有重要意义。
本文通过三类证据说明了基于 transformers 的 in-context learners 在其激活中编码了较小的模型,并更新这些隐式模型为更加精确的预测器;而且,这些学习器学习算法的特征与最佳实践算法相似,这意味着 in-context learners 可以发现标准的估计算法,如梯度下降,闭式 Ridge 回归和最小二乘回归,实验结果验证了这个假设。
Nov, 2022