结构化预测与注意力的可微分动态规划
本文研究了一系列经典目标函数,并将它们应用于神经序列到序列模型的训练,在IWSLT'14德语-英语翻译和Gigaword自动摘要等任务上达到了最新的最优结果。
Nov, 2017
本文研究了自动微分技术和其与限定续延之间的紧密关系,提出了无需任何辅助数据结构的运算符重载形式的反向模式自动微分实现,并将其与多阶段编程相结合,实现了TensorFlow等框架的计算性能优势和PyTorch等库的表达能力。
Mar, 2018
介绍了一种新颖的动态可微推理(DDR)框架,它可用于学习分支程序和其组成部分的函数,解决了最近动态架构中的重要非可微问题,并将其应用于CLEVR可视化问题回答和逆波兰表达式评估的两个设置中,通过有效利用额外的结构监督,在子任务一致性方面实现了大的改进和总体准确性的小提高。
Mar, 2018
SPIGOT是一种新的优化方法,用于通过神经网络反向传播,其中包括在中间层中进行硬决策结构化预测(例如解析)。我们在两个结构化NLP管道上进行实验,表明使用SPIGOT进行训练比模块化训练管道、直通估计器和结构化注意力有更大的改进,达到了新的语义依赖解析技术水平。
May, 2018
本篇研究介绍了一种使用SparseMAP inference进行训练的方式,可以在维持可区分性的同时,实现从全局潜在结构建立不受限制的动态计算图,从而助力于深度神经网络建模的训练。
Sep, 2018
本文介绍了LP-SparseMAP,这是SparseMAP的一个扩展,它通过本地多面体松弛来解决SparseMAP的一个限制。LP-SparseMAP使用因子图的领域特定语言来定义和回溯任意隐藏结构,支持粗分解,硬逻辑约束和高阶相关性。在三个结构化预测任务中的实验显示了与SparseMAP和结构化SVM相比的优势。
Jan, 2020
介绍了一种基于随机动态规划算法(RDP)的框架,可将计算状态扩展到成千上万个潜在状态,同时保持较低的偏差和方差,并且适用于多种不同的图结构和自动微分;同时,利用 RDP 训练结构化变分自编码器并在推理网络上扩展,获得了比基线更好的测试似然性和成功避免后验崩溃。
Dec, 2021
我们分析了在有监督学习环境下使用梯度下降法训练的递归神经网络在动态系统中的表现,并证明了在没有大量过参数化的情况下,梯度下降法可以实现最优性。我们深入的非渐近分析 (i) 以序列长度 $T$、样本大小 $n$ 和环境维度 $d$ 为条件给出了网络大小 $m$ 和迭代复杂性 $ au$ 的精确界限,(ii) 显示了动态系统中长期依赖对收敛性和以激活函数的李普希茨连续性界限所刻画的网络宽度界限的显著影响,该界限依赖于激活函数的李普希茨连续性。值得注意的是,这个分析揭示了一个适当初始化的使用 $n$ 个样本进行训练的递归神经网络可以在网络大小 $m$ 的低次对数尺度下实现最优性。这与之前的工作形成鲜明对比,前者需要 $m$ 对 $n$ 的高阶多项式依赖来建立强正则条件。我们的结果基于对递归神经网络能够逼近和学习的动态系统类的明确描述,通过约束范数的传输映射,并且通过建立隐藏状态相对于可学习参数的局部平滑性属性来实现。
Feb, 2024
本研究解决了深度学习优化器理论中的局限性,提出对Adam、Shampoo和Prodigy三种方法进行新的理解,强调它们可被视作在特定范数下的最陡下降方法。研究指出,通过为不同角色的张量分配不同的操作范数,可以开辟新的训练算法设计空间,从而提升模型的稳定性和训练效率。
Sep, 2024