关键词linear regression tasks
搜索结果 - 4
- 连续学习中的专家混合理论
混合专家(MoE)模型通过利用门控网络在多个专家之间稀疏和分配不同任务,从而有效缓解了连续学习中的灾难性遗忘问题。本文通过对过参数化线性回归任务进行理论分析,得出了 MoE 模型相对于单个专家的优势,并提供了 MoE 模型在学习性能中的影响 - ICML基于正则化的持续学习的统计理论
我们对基于正则化的连续学习在一系列线性回归任务中进行了统计分析,重点在于不同正则化项如何影响模型性能。我们推导了作为先验估计器的收敛速率,考虑了由矩阵值超参数索引的广义 l2 正则化算法族,包括最小范数估计器和连续岭回归作为特例。随着任务的 - Transformer 的好处:在无结构数据的线性回归任务中的上下文学习
通过进行线性回归任务的实验,研究了 transformer 结构的优势,并提供了相应的理论直觉来解释 transformer 如何从非结构化数据中进行上下文学习。特别是观察到:(1)具有两层 softmax (self-) attentio - 多头注意力在上下文线性回归中的优势
我们在研究中心比较了 transformer 中 softmax attention 在上下文学习和线性回归任务中的性能,理论分析表明具有较大嵌入维度的多头注意力优于单头注意力,当上下文示例的数量增加时,使用单头 / 多头注意力的预测损失为