隐式训练能量模型用于结构预测

AAAINov, 2022

Implicit Training of Energy Model for Structure Prediction

Shiv Shankar, Vihari Piratla

TL;DR该论文讨论了现有训练目标在处理复杂结构化输出方面的局限性，并介绍了通过隐式梯度技术学习动态损失景观以提高模型在结构预测中的性能的方法。

Abstract

Most deep learning research has focused on developing new model and training procedures. On the other hand the training objective has usually been restricted to combinations of standard losses. When the objective

deep learning training objective structured outputs inference network dynamic loss objective

发现论文，激发创造

改进推理网络和结构化预测能量网络的联合训练

设计了一种复合目标函数，共同训练成本增强和测试时推理网络以及能量函数，为结构化预测稳定和提高了这种联合训练能力，并在两个序列标注任务上进行了实证验证，显示优于以前的工作方案，以及在全局能量项上取得进一步改进。

Nov, 2019

非线性输出转换的深度结构化预测

本研究提出一种新型模型，可用于语义分割等任务中，综合多种现有方法，实现了图像分割中非线性输出空间转换，同时保持了现有推理技术的适用性。

Nov, 2018

基于搜索引导的轻量级监督下的结构预测能量网络训练

文章介绍了一种使用截断随机搜索来训练结构化预测能量网络（SPENs）的方法，以达到在无标记训练数据的情况下有效监督和提高性能的目的。通过使用简单易得的人类知识或不可微分的流水线来组装标量奖励函数，并使用快速的截断随机搜索来有效地搜索输出空间产生局部优化，以避免使用标记训练数据。SPENs 提供了高效的测试时间推理，并在结构化预测中产生先进的结果。

Dec, 2018

图结构预测能量网络

提出了一种用于结构预测的能量网络，能够同时建模明确局部和隐式高阶关联，同时保持推理的易计算性，并将该方法应用于自然语言处理和计算机视觉任务，展示了其广泛实用性。

Oct, 2019

基于能量学习的场景图生成

本文介绍了一种基于能量的学习框架，用于生成场景图，允许将场景图的结构有效地纳入输出空间中，通过在学习框架中添加一些约束条件，可以最终提高模型的性能，在视觉基因组和 GQA 基准数据集上的性能提高了 21％和 27％，在零样本和少样本情况下优于现有模型。

Mar, 2021

学习用于结构化预测的近似推理网络

本文提出了一种基于神经网络的结构化预测能量网络方法，使用经过训练的神经网络来进行结构化 argmax 推理，同时开发了大边界训练准则以实现对能量函数和推理网络的联合训练。在多标签分类和序列标注等任务中，该方法能够在保持或提高准确性的同时大幅提升推理速度。

Mar, 2018

监督结构学习

该研究论文探讨了离散生成模型的结构学习或发现，并侧重于贝叶斯模型选择和训练数据的吸收，特别关注数据摄入的顺序。基于预期自由能，将先验放置在模型选择上是关键之一。通过在 MNIST 数据集上进行图像分类以及在具有动力学的模型发现问题上的测试，展示了该方案的基本思想。在这些示例中，通过自主学习生成模型来恢复（即解开）潜在状态的因素结构及其特征路径或动力学。

Nov, 2023

结构化预测能量网络

本论文提出了一种灵活的结构化预测框架 — 结构化预测能量网络（SPEN），通过使用一个深层架构来定义候选标签的能量函数，使用反向传播来迭代地优化标签的能量，从而进行预测。该框架能够捕捉标签之间的依赖关系，以及自动学习结构化输出的有区别特征，可以应用于多标签分类等问题，展现出卓越的性能，提供了有关前向和迭代结构化预测之间的基本权衡。

Nov, 2015

基于能量的推断网络在任意阶序列标注中的探索

本论文提出了几个高阶能量项来捕捉序列标记中标签之间的复杂依赖关系，并使用卷积、循环和自我注意网络的神经参数化来处理该方法。我们在学习基于能量的推理网络框架中使用此方法，在四个序列标记任务上实现了高性能，同时具有与简单的本地分类器相同的解码速度，并发现高阶能量在嘈杂的数据条件下的效果更好。

Oct, 2020

利用深度网络在训练阶段仅针对非线性黑盒系统识别的能力

为了在系统辨识中充分利用深度模型的建模能力，本研究提出了一种新的训练策略，仅在训练阶段使用深度模型。通过采用两个具有不同结构和目标的分离模型，第一个模型是目标为模拟系统输出分布的深度生成模型（教师模型），第二个模型是基于浅层基函数的模型（学生模型），通过系统输入来预测系统输出。通过使这两个模型学习的表示空间保持一致，使学生模型继承了教师模型的逼近能力。仿真结果在三个非线性基准测试上与应用于相同基准测试的深度架构相比表现出相似的性能。同时实现了算法透明性和结构效率作为副产品。

Dec, 2023