结构化预测与注意力的可微分动态规划

Feb, 2018

结构化预测与注意力的可微分动态规划

Differentiable Dynamic Programming for Structured Prediction and Attention

Arthur Mensch, Mathieu Blondel

TL;DR本文提出了一种新的方法，在动态规划算法的递归过程中使用强凸正则化器平滑极大算子，以使一类DP算法变得可微分，从而解决DP算法在神经网络中无法使用反向传播训练的问题，同时实例化了两个平滑算法，并在结构化预测任务和神经机器翻译中测试了其性能。

Abstract

dynamic programming (DP) solves a variety of structured combinatorial problems by iteratively breaking them down into smaller subproblems. In spite of their versatility, DP algorithms are usually non-differentiable, which hampers their use as a layer in →

发现论文，激发创造

用于序列到序列学习的经典结构化预测损失

本文研究了一系列经典目标函数，并将它们应用于神经序列到序列模型的训练，在IWSLT'14德语-英语翻译和Gigaword自动摘要等任务上达到了最新的最优结果。

Nov, 2017

稀疏可导结构化推断

介绍了SparseMAP方法及其应用于深度神经网络的优势，旨在解决基于稀疏结构的推理问题，提高可解释性和准确率

Feb, 2018

解密可导编程：Shift/Reset 倒数第二个反向传播器

本文研究了自动微分技术和其与限定续延之间的紧密关系，提出了无需任何辅助数据结构的运算符重载形式的反向模式自动微分实现，并将其与多阶段编程相结合，实现了TensorFlow等框架的计算性能优势和PyTorch等库的表达能力。

Mar, 2018

DDRprog: 一个能够执行可微分动态推理编程的CLEVR程序员

介绍了一种新颖的动态可微推理（DDR）框架，它可用于学习分支程序和其组成部分的函数，解决了最近动态架构中的重要非可微问题，并将其应用于CLEVR可视化问题回答和逆波兰表达式评估的两个设置中，通过有效利用额外的结构监督，在子任务一致性方面实现了大的改进和总体准确性的小提高。

Mar, 2018

使用SPIGOT反向传播结构化Argmax

SPIGOT是一种新的优化方法，用于通过神经网络反向传播，其中包括在中间层中进行硬决策结构化预测（例如解析）。我们在两个结构化NLP管道上进行实验，表明使用SPIGOT进行训练比模块化训练管道、直通估计器和结构化注意力有更大的改进，达到了新的语义依赖解析技术水平。

May, 2018

借助稀疏潜在结构实现动态计算图

本篇研究介绍了一种使用SparseMAP inference进行训练的方式，可以在维持可区分性的同时，实现从全局潜在结构建立不受限制的动态计算图，从而助力于深度神经网络建模的训练。

Sep, 2018

稀疏结构预测的可微松弛优化：LP-SparseMAP

本文介绍了LP-SparseMAP，这是SparseMAP的一个扩展，它通过本地多面体松弛来解决SparseMAP的一个限制。LP-SparseMAP使用因子图的领域特定语言来定义和回溯任意隐藏结构，支持粗分解，硬逻辑约束和高阶相关性。在三个结构化预测任务中的实验显示了与SparseMAP和结构化SVM相比的优势。

Jan, 2020

通过随机化扩展结构化推理能力

介绍了一种基于随机动态规划算法（RDP）的框架，可将计算状态扩展到成千上万个潜在状态，同时保持较低的偏差和方差，并且适用于多种不同的图结构和自动微分；同时，利用 RDP 训练结构化变分自编码器并在推理网络上扩展，获得了比基线更好的测试似然性和成功避免后验崩溃。

Dec, 2021

递归神经网络的梯度下降的收敛性: 非渐近分析

我们分析了在有监督学习环境下使用梯度下降法训练的递归神经网络在动态系统中的表现，并证明了在没有大量过参数化的情况下，梯度下降法可以实现最优性。我们深入的非渐近分析 (i) 以序列长度 $T$、样本大小 $n$ 和环境维度 $d$ 为条件给出了网络大小 $m$ 和迭代复杂性 $ au$ 的精确界限，(ii) 显示了动态系统中长期依赖对收敛性和以激活函数的李普希茨连续性界限所刻画的网络宽度界限的显著影响，该界限依赖于激活函数的李普希茨连续性。值得注意的是，这个分析揭示了一个适当初始化的使用 $n$ 个样本进行训练的递归神经网络可以在网络大小 $m$ 的低次对数尺度下实现最优性。这与之前的工作形成鲜明对比，前者需要 $m$ 对 $n$ 的高阶多项式依赖来建立强正则条件。我们的结果基于对递归神经网络能够逼近和学习的动态系统类的明确描述，通过约束范数的传输映射，并且通过建立隐藏状态相对于可学习参数的局部平滑性属性来实现。

Feb, 2024

旧优化器，新范数：选集

本研究解决了深度学习优化器理论中的局限性，提出对Adam、Shampoo和Prodigy三种方法进行新的理解，强调它们可被视作在特定范数下的最陡下降方法。研究指出，通过为不同角色的张量分配不同的操作范数，可以开辟新的训练算法设计空间，从而提升模型的稳定性和训练效率。

Sep, 2024