FloodNet VQA 的高效现代基线
提出了用于视觉问题回答的简单词袋基线模型,使用来自问题的单词特征和图像的 CNN 特征进行拼接以预测答案并在挑战性的 VQA 数据集上显示了与许多最新方法使用递归神经网络相当的性能。同时提供了交互式 Web 演示和开源代码以探索模型的优缺点。
Dec, 2015
基于大规模语言模型 CoT 链条提示的零样本 VQA 模型,通过构建 FFD-IQA 评估数据集,对洪水灾害进行损坏评估,并在复杂问题回答中展现了更好的性能。
Dec, 2023
本文利用深度神经网络中的协同注意机制与通用的多模式高阶因式化池化方法实现多模态特征的融合,使用 KL(Kullback-Leibler)散度作为损失函数,最终实现了优越的视觉问答表现。
Aug, 2017
开发了一个多模式因式双线性池化(MFB)方法,通过 MFB 方法的融合和对视觉和文本信息的细粒度表示,结合协同注意力机制,在视觉问题回答中达到了最先进的成果。
Aug, 2017
本篇论文提出了一种简单的关注机制,通过将 OCR 令牌特征分别发送到可视化和语言关注分支,并将它们发送到流行的 Transformer 解码器以生成答案或标题,从而在 TextVQA 和 ST-VQA 等多个基准测试上取得最新的最佳表现,并且在文本图像字幕方面超过了 TextCaps 挑战 2020 的获胜者
Dec, 2020
本文提出了一种简单而有效的联合模型,用于图像和视频的感知质量评估。该模型应用了来自主干网络的一个全局特征,并结合一些训练技巧,其性能超过了当前最先进模型的基线。根据所提出的架构,我们发布了三个常见场景下的良好训练模型。这三个预训练模型可直接用于质量评估,也可进一步进行微调以获得更多的用户需求。
Nov, 2021
本研究提出了一种基于多模态 Transformer 架构的新型 TextVQA 模型,采用自我注意力机制进行不同模态的融合,并通过动态指针网络进行迭代式答案解码,相比于现有方法大幅度提高了 TextVQA 任务的性能。
Nov, 2019
本篇研究提出了一种基于注意力机制和深度神经网络的视觉问答方法,通过多模态特征嵌入策略,联合关注自由区域和检测框区域,实现更准确的图像问答。在 COCO-QA 和 VQA 数据集上测试,结果表明该方法优于现有方法。
Nov, 2017
本文探讨了利用从大型语言或视觉数据集训练得到的向量表示来建模文本或视觉信息,提出并评价了 Multimodal Compact Bilinear pooling (MCB) 的表现优于传统的多模态平均池化方法,并通过在视觉问答和定位任务中应用,佐证出 MCB 的有效性和高表达性。
Jun, 2016
本研究提出了一个基于卷积神经网络可快速分割洪水淹没建筑的新方法,并结合多分辨率、多传感器、多时相卫星图像,本方法迅速生成卫星图像洪水地图,有助于应对洪水事件的早期响应;同时,通过结合多时相信息,本方法也能用于快速而精确的灾后伤害评估,并可帮助政府更好地协调中长期的财政援助计划。我们还将我们基于编码器 - 解码器结构的多流视频数据融合方法与其他现有研究进行了比较,并证明了它的性能更佳。此外,我们还发布了一个全面预处理和标记的多分辨率和多时相卫星图像灾害数据集以及我们的源代码。
Dec, 2018