FloodNet VQA 的高效现代基线

May, 2022

An Efficient Modern Baseline for FloodNet VQA

Aditya Kane, Sahil Khose

TL;DR本文设计了一个基于现代图像和文本特征抽象模型的简单而高效的 VQA 系统，使用基本的组合方法，如拼接，加法和逐元素乘法，在灾害管理和响应系统中具有更高的性能表现。该系统在 FloodNet 数据集上超过现有方法并达到了最先进的性能，需要的训练和推理时间也更少。

Abstract

Designing efficient and reliable vqa systems remains a challenging problem, more so in the case of disaster management and response systems. In this work, we revisit fundamental →

vqa systems disaster management combination methods image and text feature abstraction models floodnet dataset

发现论文，激发创造

视觉问答的简单基线

提出了用于视觉问题回答的简单词袋基线模型，使用来自问题的单词特征和图像的 CNN 特征进行拼接以预测答案并在挑战性的 VQA 数据集上显示了与许多最新方法使用递归神经网络相当的性能。同时提供了交互式 Web 演示和开源代码以探索模型的优缺点。

Dec, 2015

释放大型语言模型的潜力：洪水灾害场景下的无监督视觉问答（Zero-shot VQA）

基于大规模语言模型 CoT 链条提示的零样本 VQA 模型，通过构建 FFD-IQA 评估数据集，对洪水灾害进行损坏评估，并在复杂问题回答中展现了更好的性能。

Dec, 2023

超越双线性：面向视觉问答的广义多模态分解高阶池化

本文利用深度神经网络中的协同注意机制与通用的多模式高阶因式化池化方法实现多模态特征的融合，使用 KL（Kullback-Leibler）散度作为损失函数，最终实现了优越的视觉问答表现。

Aug, 2017

多模式因式双线性池化与 Co-Attention 学习在视觉问答中的应用

开发了一个多模式因式双线性池化（MFB）方法，通过 MFB 方法的融合和对视觉和文本信息的细粒度表示，结合协同注意力机制，在视觉问题回答中达到了最先进的成果。

Aug, 2017

简单并不容易：文本 VQA 和 TextCaps 的简单强基准

本篇论文提出了一种简单的关注机制，通过将 OCR 令牌特征分别发送到可视化和语言关注分支，并将它们发送到流行的 Transformer 解码器以生成答案或标题，从而在 TextVQA 和 ST-VQA 等多个基准测试上取得最新的最佳表现，并且在文本图像字幕方面超过了 TextCaps 挑战 2020 的获胜者

Dec, 2020

图像和视频质量评估的强基准

本文提出了一种简单而有效的联合模型，用于图像和视频的感知质量评估。该模型应用了来自主干网络的一个全局特征，并结合一些训练技巧，其性能超过了当前最先进模型的基线。根据所提出的架构，我们发布了三个常见场景下的良好训练模型。这三个预训练模型可直接用于质量评估，也可进一步进行微调以获得更多的用户需求。

Nov, 2021

使用指针增强多模态 Transformer 进行迭代式答案预测的 TextVQA

本研究提出了一种基于多模态 Transformer 架构的新型 TextVQA 模型，采用自我注意力机制进行不同模态的融合，并通过动态指针网络进行迭代式答案解码，相比于现有方法大幅度提高了 TextVQA 任务的性能。

Nov, 2019

多模态乘积特征嵌入共同关注自由形式区域和检测用于视觉问答

本篇研究提出了一种基于注意力机制和深度神经网络的视觉问答方法，通过多模态特征嵌入策略，联合关注自由区域和检测框区域，实现更准确的图像问答。在 COCO-QA 和 VQA 数据集上测试，结果表明该方法优于现有方法。

Nov, 2017

多模态紧凑双线性池化用于视觉问答和视觉定位

本文探讨了利用从大型语言或视觉数据集训练得到的向量表示来建模文本或视觉信息，提出并评价了 Multimodal Compact Bilinear pooling (MCB) 的表现优于传统的多模态平均池化方法，并通过在视觉问答和定位任务中应用，佐证出 MCB 的有效性和高表达性。

Jun, 2016

Multi$^{3}$Net：多尺度、多传感器和多时相卫星图像融合分割洪水淹没建筑物

本研究提出了一个基于卷积神经网络可快速分割洪水淹没建筑的新方法，并结合多分辨率、多传感器、多时相卫星图像，本方法迅速生成卫星图像洪水地图，有助于应对洪水事件的早期响应；同时，通过结合多时相信息，本方法也能用于快速而精确的灾后伤害评估，并可帮助政府更好地协调中长期的财政援助计划。我们还将我们基于编码器 - 解码器结构的多流视频数据融合方法与其他现有研究进行了比较，并证明了它的性能更佳。此外，我们还发布了一个全面预处理和标记的多分辨率和多时相卫星图像灾害数据集以及我们的源代码。

Dec, 2018