多跳特征调节视觉推理

ECCVAug, 2018

Visual Reasoning with Multi-hop Feature Modulation

Florian Strub, Mathieu Seurin, Ethan Perez, Harm de Vries, Jérémie Mary...

TL;DR本文提出了在卷积神经网络中多次迭代地生成 Feature-wise Linear Modulation（FiLM）层参数的方法，以更好地处理诸如对话等较长的输入序列，并在 GuessWhat？！视觉对话任务中显著优于之前的最新技术和单次 FiLM 生成。

Abstract

Recent breakthroughs in computer vision and natural language processing have spurred interest in challenging multi-modal tasks such as visual question-answering and →

computer vision natural language processing film layers convolutional network visual dialogue

发现论文，激发创造

FiLM：通用调节层的视觉推理

引入了一种名为 FiLM 的神经网络通用条件方法，FiLM 层通过基于条件信息的简单，特征 - wise 仿射变换影响神经网络计算，该方法对于视觉推理任务特别有效，在 CLEVR 基准测试中减少了一半的错误率，FiLM 层总体上能够很好的适应少样例情况下的新数据以及零样例的情况。

Sep, 2017

级联互相调制的视觉推理

CMM 是一种端到端的视觉推理模型，通过特征逐步的线性调制 (FiLM) 技术实现了问答过程中的文本 / 视觉互动，实验结果表明 CMM 在视觉推理问题上达到了最新的最优性能。

Sep, 2018

基于语言引导的时尚图像编辑与特征变换

本文提出了一种名为 FiLMedGAN 的基于自然语言表示的特征线性调制的方法，能够在仅使用少量空间信息的情况下对服装图像进行编辑和生成，相比于现有的基线工作，结合 skip connection 和 total variation regularization 方法，可以生成更为真实可信的效果，并在生成的新装与目标描述一致时具有更好的本地化能力。

Aug, 2018

DMRM: 用于视觉对话的双通道多跳推理模型

提出了一种新的视觉对话模型 DMRM，通过双通道多跳推理结合多模态注意力，有效地将问题、图像和历史上下文信息融合，从而提高了视觉对话的生成质量。在 VisDial v0.9 和 v1.0 数据集上，DMRM 模型的实验结果表明，相比较其他模型，DMRM 模型具有更好的效果。

Dec, 2019

通过语言调节早期视觉处理

本文提出一种新的模型，称之为 MRN，通过在预训练的残差网络（ResNet）中加入 batch normalization 参数对语言嵌入进行调制，显著优化了两个视觉问答任务的结果，并表明从视觉处理的早期阶段调制有益。

Jul, 2017

单幅图像超分辨率的通道和空间特征调制网络

通过通道和空间特征调制，本文提出了一种利用序列化特征调制存储器单元及密集连接结构将低分辨率特征转换为高信息特征的网络，该网络能够加强高贡献信息和抑制冗余信息，同时通过门控融合节点适应性地融合分层特征，使得模型在图像超分辨率上比现有技术更优秀。

Sep, 2018

基于视觉 - 语言模型的图像融合

通过利用不同源图像中的显式文本信息来指导图像融合，我们提出了一种名为 FILM 的新型图像融合范式，首次利用 ChatGPT 中的文本信息，通过交叉注意力从源图像中提取关键视觉特征，实现了更深层次的上下文理解，最终生成了融合图像。在红外 - 可见光、医学、多曝光和多焦点图像融合等四个任务中，该范式取得了令人满意的结果。我们还提出了一个基于 ChatGPT 的视觉 - 语言数据集，其中包含了十个图像融合数据集的段落描述，以促进基于视觉 - 语言模型的图像融合的未来研究。代码和数据集将会发布。

Feb, 2024

少样本学习的交叉调制网络

本文介绍了一种名为交叉调制网络的架构，可以利用特征调制机制在多个层次上实现支持示例和查询示例之间的交互，这种架构为少样本学习提供了一种新的方法。在 miniImageNet 的 5 路 1-shot 场景中，本文关键字提到的模型表现也达到最先进水平。

Dec, 2018

利用说话者信息个性化关键词检测

通过整合说话者信息到关键词检测系统，使用 Feature-wise Linear Modulation（FiLM）方法从多个信息源进行学习，我们在多样化数据集上实验并取得了显著提高的关键词检测准确性，特别是在不平衡说话者群体中，还能在参数数量上只增加 1% 的情况下，最小程度影响延迟和计算成本，使其成为实际应用中的可行解决方案。

Nov, 2023

推进大型多模型：明确的推理链与视觉问题生成

本文介绍了一种通过图像内容和文字指令进行显式推理的新方法，采用大型多模态模型（LMM），并引入了一个能够提问以获取必要知识以增强推理过程鲁棒性和可解释性的系统。实验结果表明我们的方法能够在面对模糊的视觉输入时，朝着更具鲁棒性、准确性和可解释性的 LMM 迈进。

Jan, 2024