- ACLMEFT:通过稀疏适配器实现内存高效微调
通过使用较大的尺寸但内存高效的适配器,结合语言模型中前馈网络的固有激活稀疏性以及中央处理器内存相对于图形处理器更大的容量,我们提出了一种改进的方法来优化在有限资源下大型语言模型的微调性能。通过将较大尺寸的适配器的参数存储和更新在中央处理器上 - 关于连续学习中宽度递减收益的研究
深度神经网络在各种环境中表现出前沿的性能,但在按顺序训练新任务时往往会出现 “灾难性遗忘”。本研究设计了一个框架来分析连续学习理论,并证明网络宽度与遗忘之间存在直接关系。具体而言,我们证明增加网络宽度以减少遗忘产生递减的效果,我们在以前的研 - ICLRTransformer 前馈层中关键值记忆更新的实证研究
通过在大型语言模型中的知识编辑和微调任务中比较更新键或值的两种方法,我们对 transformer 中的前馈网络进行了实证消融研究,从而更好地理解前馈网络作为一组键值神经存储器来恢复抽象高层知识。
- 通过知识增强和对齐提升基于知识的对话系统的事实一致性
PLMs 基于知识驱动的对话系统存在生成与提供的知识源不一致的回应问题,本文通过知识增强和对齐两种方法有效提升了前馈网络(FFNs)在回应中表达事实知识的能力,验证了提升知识驱动对话系统的事实一致性的有效性。
- ACL领域适配器混合模型:从预训练语言模型中解耦和注入领域知识
本文介绍了一种基于预训练语言模型和适应领域的新型领域自适应方法,通过两个阶段的适配器调整策略(在无标签数据上先进行领域适配器调整,然后进行标签数据上的任务适配器调整),可以同时提高在特定领域、跨领域和知识密集型任务中的性能。
- AlteredAvatar: 快速风格适应的动态 3D 头像造型
通过元学习方法,将基于大量样本的前馈网络方法和个性化优化方法结合的 AlteredAvatar 方法,实现基于文本描述的新颖样式快速应用于动态 3D 头像的快速样式化。
- ResNets 中的残留缩放优化信号传播
通过有限尺寸理论,研究残差网络的信号传播及其依赖残差分支的伸缩,发现最优伸缩参数范围在最大灵敏度范围内,并给出一个理论框架指导 ResNets 的最优伸缩。
- 最优输入增益:超级高效前馈神经网络所需的一切
经实验证明,在等效的前馈网络中,使用线性变换预处理输入等同于在每个训练迭代中将负梯度矩阵与自相关矩阵相乘,本文提出了一种通过求解自相关矩阵来最大化学习的二阶方法,并使用最优输入增益(OIG)方法来改进两个一阶两阶段的训练算法,通过对 BP - ACLMoEfication:Transformer 前馈层是专家混合层
本研究探讨了预训练模型 Transformers 中前馈网络(FFN)的计算模式,提出了一种将模型 MoEfication 为多个功能分区的方法,并建立了专家路由器以决定每个输入使用哪个专家。实验结果表明,这种方法可以在保持原始性能的同时使 - EMNLP使用轻量级前馈神经网络的基于转移的句法分析
本文研究在保证依存分析精度不受影响的情况下,如何去除嵌入式特征和减小其规模,以构建适用于多种不同语言的轻量级解析器,并在 Universal Dependencies 数据集上进行了实验。实验证明,对于多数树库而言,可以去除 grand-d - ICLR稳定的循环模型
本文针对循环神经网络的稳定性进行了深入探究,理论上证明在推断和通过梯度下降进行训练时,稳定循环神经网络可以很好地被前馈网络近似。实验上,我们展示了基准序列任务中稳定循环模型通常能够和不稳定的对应物一样好地发挥作用。这些发现揭示了循环网络的有 - ACL神经网络交叉模态映射真的能够桥接视觉和语言么?
该论文提出新的相似度衡量方法和两个实验,揭示了通过神经网络进行模态之间的映射所得到的预测向量的周围结构更像输入向量而不是目标向量,并且没有训练的网络不会显著破坏输入向量的语义结构。
- 自然语言处理神经网络模型入门
该论文介绍了神经网络模型在自然语言处理中的应用及其相关技术,包括自然语言编码、前馈网络、卷积网络、循环网络和递归网络,以及自动梯度计算的计算图抽象。
- 神经网络规范化容量控制
研究了一种常规范限制前馈网络的容量、凸性和特征。
- 用随机游走初始化训练超深度前馈网络
该研究论文探讨了在机器学习中训练深度网络的困难之处,并提出了一种方法解决梯度消失问题,即适当增加各层的宽度以缓解问题。