计算机视觉中的粗 - 细阶段提升极大后验概率推断

IJCAIJul, 2017

计算机视觉中的粗 - 细阶段提升极大后验概率推断

Coarse-to-Fine Lifted MAP Inference in Computer Vision

Haroun Habeeb, Ankit Anand, Mausam, Parag Singla

TL;DR研究了利用提升推理算法应用于计算机视觉中并开发了一种通用模板，其中采用了粗糙到精细的推理方法来提高算法的效率，成功地开发了用于立体视觉和交互式图像分割的基于提升推理算法的算法。

Abstract

There is a vast body of theoretical research on lifted inference in probabilistic graphical models (PGMs). However, few demonstrations exist where lifting is applied in conjunction with top of the line applied al

lifted inference probabilistic graphical models computer vision coarse-to-fine inference stereo vision

发现论文，激发创造

CF-ViT: 一种通用的视觉 Transformer 粗细递进方法

本文提出了一种粗到细的 CF-ViT，实现视觉图像的快速识别，具有较高的计算效率，可以支持小长度的词条序列，大大减少了计算成本。

Mar, 2022

提高马尔科夫逻辑的 MAP 推理准确性和效率

本文提出了一种基于 Cutting Plane Method 的最大后验概率 (Maximum A Posteriori) 推断方法 CPI，用于统计关系学习。作者在两个任务上进行了评估，即语义角色标注和联合实体解析。实验结果表明使用 CPI 后，原本的 MAP 推断方法 MaxWalkSAT 以及整数线性规划的效率明显提高，并且 CPI 还可提高 MaxWalkSAT 的准确性，同时保持整数线性规划的精确性。

Jun, 2012

学习将几乎任何事物映射

通过交叉模态蒸馏策略，从俯瞰图像中学习预测细粒度地物属性的分布，以实现精细化的土地覆盖估计，结果可应用于地图绘制和图像定位。

Sep, 2019

非对称图模型的升级概率推理

介绍了一种基于概率抽样的推理框架，利用图形模型中的近似对称性来提出在马尔可夫链中进行选择的步骤，以改进概率估计并保持无偏。

Dec, 2014

通过级联视觉语言模型提升细粒度图像分类

本研究介绍了 CascadeVLM，一种创新的框架，通过有效地利用大型视觉 - 语言模型（LVLMs）内固有的精细知识，克服了以前基于 CLIP 的方法的限制。在各种细粒度图像数据集上的实验表明，CascadeVLM 在 Stanford Cars 数据集上显著优于现有模型，达到了令人印象深刻的 85.6% 的零样本准确性。性能增益分析验证了 LVLM 对于 CLIP 不确定的复杂图像的更准确预测，从而提高了整体准确性。我们的框架为有效和高效的细粒度图像分类提供了 VLM 与 LVLM 的整体集成方法。

May, 2024

结构化预测的局部扰动 - MAP 算法

本文介绍了一种新的局部扰动 - 最大后验 (Local Perturb-and-MAP, locPMAP) 框架，通过利用我们观察到的 locPMAP 与原始 CRF 模型的伪似然函数之间的关系，将全局优化替换为局部优化，从而取代了 CRFs 在学习和推断步骤中的常用的近似技术。在三个不同的视觉任务中测试我们的方法，并展示了我们的方法优于其他优化到伪似然目标的近似推断技术，此外，我们展示可以将我们的方法整合到完全卷积网络框架中，以增加模型的复杂性并证明 locPMAP 和伪似然之间的关系为理解和使用伪似然提供了一种新的视角。

May, 2016

一种允许端对端训练任意成对势函数的 CRF 推理的投影梯度下降方法

通过开发新的推理和学习框架，挑战当前视觉社区流行的基于高斯势函数的条件随机场模型，该框架可以通过梯度下降来学习成对的条件随机场势函数，可以考虑标准的空间和高维双边核，可用于深度神经网络中端到端地训练以提高语义分割的准确性。

Jan, 2017

深度卷积神经网络中使用两级注意力模型进行细粒度图像分类的应用

本文提出了一种使用深度神经网络应用视觉注意力于细粒度分类任务的新管道，通过整合三种类型的注意力，训练领域特定的深度网络，在弱监督约束下避免使用昂贵的注释，并在 ILSVRC2012 数据集和 CUB200_2011 数据集的子集上验证了该方法的有效性，取得了与其他方法相竞争的表现。

Nov, 2014

Zoom-CAM: 从图像标签生成细粒度像素注释

本文提出一种新的基于类别感知可视化技术的异类弱监督学习方法 Zoom-CAM，可以将来自各个卷积层的信息结合起来以生成高质量的伪标签，提高目标定位和分割的精度。

Oct, 2020

准确物体检测与语义分割的丰富特征层次结构

提出一种基于卷积神经网络的 Region Proposal 方法 R-CNN，它与 CNN 结合起来使用更高的上下文信息，加上有监督的预培训方法，实现了在 PASCAL VOC 2012 数据集上的平均准确率 mAP 达到 53.3%。

Nov, 2013