无目标标签的多样数据集和方法的领域通用视觉问答模型
本文提出了一种新颖的 VQA 有监督多模态域自适应方法,通过考虑所有模态在一起以及单独处理每个单独模态来对齐源域和目标域的数据分布,以学习跨不同领域和模态的联合特征嵌入,通过在 VQA 2.0 和 VizWhiz 数据集上进行广泛实验,表明了我们所提出方法在这个具有挑战性的 VQA 域自适应设置中胜过了现有的最先进的方法。
Nov, 2019
本研究提出了一种新颖的域自适应算法,通过转换目标数据集的特征,减少统计分布上的差异,以训练源数据集的视觉问答模型,最大化对目标数据集上的问题正确回答的可能性。通过在几个热门的视觉问答数据集之间进行适应性调整的实证研究,发现所提出的方法优于没有适应和其他方法,并定量和 qualitatively 分析了适应性何时最为有效。
Jun, 2018
视觉问答研究需要系统能够根据图像和自然语言问题提供准确的自然语言答案。然而,先前的通用 VQA 方法普遍存在记忆训练数据中的偏见而不是学习正确行为(如在预测答案之前进行图像建立联系)。因此,这些方法通常在分布内获得高性能但在分布外获得低性能。最近几年,已经提出了各种数据集和去偏见方法来评估和增强 VQA 的稳健性。本文提供了关于这一新兴领域的首个综述,重点讨论视觉问答中的这些问题。具体来说,首先概述了数据集的发展过程,从分布内和分布外的角度进行了分析。然后,研究了这些数据集使用的评估指标。第三,提出了一种类型学,介绍了现有去偏见方法的发展过程、相似之处与差异、稳健性比较和技术特征。此外,分析和讨论了 VQA 中代表性视觉与语言预训练模型的稳健性。最后,通过对现有文献的彻底审查和实验分析,从各个角度探讨了未来研究的关键领域。
Jul, 2023
研究开放领域问答(ODQA)中,当应用于广泛不同的领域时,此类模型的稳健性和应用性能。该研究提出了一个更现实和具有挑战性的领域转移评估环境,并研究了端到端的模型性能。他们发现,不仅模型在推广方面表现出失败,且高检索分数通常也不能提供准确的答案预测。最后,研究提出并评估了多种干预方法,其提高了端到端答案 F1 得分,最多可达 24 个点。
Dec, 2022
视觉问题回答(VQA)模型旨在展示视觉和文本推理能力,然而,由于缺乏综合的基准数据集,它们在实际应用中受到了限制。我们提出了 VQA-GEN,这是第一个通过引入转换流程生成的多模态基准数据集,用于评估 VQA 在视觉和文本领域的转换能力。实验证明 VQA-GEN 数据集揭示了现有方法对于多模态转换的漏洞,验证了全面的多模态转换对于稳健的 VQA 泛化是至关重要的。在 VQA-GEN 上训练的模型展现了跨领域和领域内性能的提升,验证了 VQA-GEN 的价值。此外,我们分析了转换技术对模型泛化性能的重要性。
Nov, 2023
该论文训练了一个视觉问答系统,使用多种模态的数据来回答关于时尚照片中服装的自然语言问题。他们使用大规模的领域特定的多模态数据集来训练该系统,该数据集使用模板自动生成,模型的最高准确性超过了人类专家水平。
Aug, 2022
本研究提供了关于计算机视觉领域中,基于深度学习的深度域适应方法的全面概述,分类不同的深度域适应情景,总结了深度域适应方法,重点分析比较了各种情况下的最先进方法,并着重强调了当前方法的潜在缺陷和未来几个方向。
Feb, 2018
本文提出了一种基于鲁棒学习思想的目标检测框架,通过使用在源领域上训练的检测模型获取目标领域的嘈杂标签数据,从而实现对所谓领域适应问题的处理。通过在 SIM10K、Cityscapes 和 KITTI 等数据集上的验证,将本文提出的方法与现有方法进行了比较,得出了它的显著提升。
Apr, 2019
本文综述了最新的单源深度无监督域适应方法,主要集中在视觉任务中,并讨论了未来研究的新视角。首先介绍了不同领域适应策略的定义和现有基准数据集的描述,然后总结和比较了不同类别的单源无监督域适应方法,包括基于差异性的方法,对抗式鉴别方法,对抗式生成方法和自监督方法,并探讨了未来的研究方向、挑战和可能的解决方案。
Sep, 2020