多跳特征调节视觉推理
引入了一种名为 FiLM 的神经网络通用条件方法,FiLM 层通过基于条件信息的简单,特征 - wise 仿射变换影响神经网络计算,该方法对于视觉推理任务特别有效,在 CLEVR 基准测试中减少了一半的错误率,FiLM 层总体上能够很好的适应少样例情况下的新数据以及零样例的情况。
Sep, 2017
CMM 是一种端到端的视觉推理模型,通过特征逐步的线性调制 (FiLM) 技术实现了问答过程中的文本 / 视觉互动,实验结果表明 CMM 在视觉推理问题上达到了最新的最优性能。
Sep, 2018
本文提出了一种名为 FiLMedGAN 的基于自然语言表示的特征线性调制的方法,能够在仅使用少量空间信息的情况下对服装图像进行编辑和生成,相比于现有的基线工作,结合 skip connection 和 total variation regularization 方法,可以生成更为真实可信的效果,并在生成的新装与目标描述一致时具有更好的本地化能力。
Aug, 2018
提出了一种新的视觉对话模型 DMRM,通过双通道多跳推理结合多模态注意力,有效地将问题、图像和历史上下文信息融合,从而提高了视觉对话的生成质量。在 VisDial v0.9 和 v1.0 数据集上,DMRM 模型的实验结果表明,相比较其他模型,DMRM 模型具有更好的效果。
Dec, 2019
本文提出一种新的模型,称之为 MRN,通过在预训练的残差网络(ResNet)中加入 batch normalization 参数对语言嵌入进行调制,显著优化了两个视觉问答任务的结果,并表明从视觉处理的早期阶段调制有益。
Jul, 2017
通过通道和空间特征调制,本文提出了一种利用序列化特征调制存储器单元及密集连接结构将低分辨率特征转换为高信息特征的网络,该网络能够加强高贡献信息和抑制冗余信息,同时通过门控融合节点适应性地融合分层特征,使得模型在图像超分辨率上比现有技术更优秀。
Sep, 2018
通过利用不同源图像中的显式文本信息来指导图像融合,我们提出了一种名为 FILM 的新型图像融合范式,首次利用 ChatGPT 中的文本信息,通过交叉注意力从源图像中提取关键视觉特征,实现了更深层次的上下文理解,最终生成了融合图像。在红外 - 可见光、医学、多曝光和多焦点图像融合等四个任务中,该范式取得了令人满意的结果。我们还提出了一个基于 ChatGPT 的视觉 - 语言数据集,其中包含了十个图像融合数据集的段落描述,以促进基于视觉 - 语言模型的图像融合的未来研究。代码和数据集将会发布。
Feb, 2024
本文介绍了一种名为交叉调制网络的架构,可以利用特征调制机制在多个层次上实现支持示例和查询示例之间的交互,这种架构为少样本学习提供了一种新的方法。在 miniImageNet 的 5 路 1-shot 场景中,本文关键字提到的模型表现也达到最先进水平。
Dec, 2018
通过整合说话者信息到关键词检测系统,使用 Feature-wise Linear Modulation(FiLM)方法从多个信息源进行学习,我们在多样化数据集上实验并取得了显著提高的关键词检测准确性,特别是在不平衡说话者群体中,还能在参数数量上只增加 1% 的情况下,最小程度影响延迟和计算成本,使其成为实际应用中的可行解决方案。
Nov, 2023
本文介绍了一种通过图像内容和文字指令进行显式推理的新方法,采用大型多模态模型(LMM),并引入了一个能够提问以获取必要知识以增强推理过程鲁棒性和可解释性的系统。实验结果表明我们的方法能够在面对模糊的视觉输入时,朝着更具鲁棒性、准确性和可解释性的 LMM 迈进。
Jan, 2024