利用视觉问答改进文本到图像合成

COLINGOct, 2020

利用视觉问答改进文本到图像合成

Leveraging Visual Question Answering to Improve Text-to-Image Synthesis

Stanislav Frolov, Shailza Jolly, Jörn Hees, Andreas Dengel

TL;DR该论文提出一种有效的方法，将文本到图像的生成与视觉问答相结合，利用 VQA 2.0 数据集来提高生成图像的图像质量和图像文本对齐，通过生成问题与答案对的额外训练样本，并采用标准的 VQA 模型，提供 T2I 模型的辅助学习信号，鼓励从 QA 对生成的图像看起来更加逼真，并最小化外部 VQA 损失。该方法可以成功提高 T2I 综合的效果，使 FID 从 27.84 降至 25.38，R-prec 从 83.82％提高至 84.79％。

Abstract

Generating images from textual descriptions has recently attracted a lot of interest. While current models can generate photo-realistic images of individual objects such as birds and human faces, synthesising images with multiple objects is still very difficult. In this paper, we propose an effective way to combine Text-to-Image (T2I) synthesis with Visual Q

text-to-image synthesis visual question answering training samples vqa 2.0 dataset image quality alignment

发现论文，激发创造

弱监督视觉问答生成

本文提出一种弱监督视觉问答生成方法，从视觉信息和字幕中合成问答对，使用 ViLBERT 模型对其进行微调，实验结果在 VQA 数据集上表现显著优于其他先进技术。

Jun, 2023

生成问题相关的字幕以帮助视觉问答

该文介绍了一种新的方法来提高视觉问题回答的性能，该方法利用深度学习的技术，结合语言和视觉的普适性知识来生成针对特定视觉问题的图像描述，并利用在线梯度方法自动确定与问题相关的描述来训练模型，实验结果表明，本方法取得了视觉问题回答领域的最新成果。

Jun, 2019

通过参考生成的段落标题来提高视觉问答能力

提出了一种视觉和文本问题回答（VTQA）模型，该模型使用自动生成的段落式标题来丰富图像的信息以帮助正确回答视觉问题，并使用交叉融合和基于强化学习的编码器解码器模型实现跨模态融合。模型在 Visual Genome 数据集上进行训练，显著提高了现有模型的性能。

Jun, 2019

通过一个大型语言模型的一系列问答，将目前基于合成问题的视觉问答普及到人工书写的问题

为了解决视觉问答中复杂人类问题的性能问题，提出了一种名为 CoQAH 的新方法，利用大语言模型和基于合成数据训练的 VQA 模型之间的一系列 QA 交互来推理和推导人类问题的逻辑答案，并在 3D 渲染和胸部 X 光图像的两种人类问题类型的数据上实现了最先进的准确性。

Jan, 2024

视觉问答作为阅读理解

本研究提出了一种基于机器阅读理解的方法，通过将视觉和文本特征统一到自然语言中以解决视觉问答中的多模态特征融合问题，并能够处理大规模外部知识库等基于知识的问题。实验结果表明，该方法在三个数据集上性能具有可比性，此为利用文本和自然语言处理技术解决视觉问答问题的一步。

Nov, 2018

从自然语言到可验证图像生成的视觉属性转移

本研究提出一种自然语言到有效图像生成（NL2VI）的方法，将自然提示转换为更适合图像生成的可视提示。通过实验，将自然提示与图像生成对齐可以提高生成图像的一致性，尤其在烹饪和 DIY 等领域具有广泛的推广和应用。

May, 2023

VersaT2I：利用多功能奖励改进文本到图像模型

最近的文本到图像 (T2I) 模型在大规模和高质量数据的帮助下，展现出令人印象深刻的性能，然而，这些 T2I 模型在生成具有美感、几何精确、忠实于文本和具有良好低级质量的图像方面仍然存在困难。我们提出了 VersaT2I，这是一个多功能的训练框架，可以通过多个奖励机制提高任何 T2I 模型的性能。我们将图像的质量分解为几个方面，例如美学、文本 - 图像对齐、几何、低级质量等。然后，对于每个质量方面，我们选择模型生成的该方面的高质量图像作为训练集，使用低秩自适应 (LoRA) 来微调 T2I 模型。此外，我们引入了一个门控函数，用于结合多个质量方面，以避免不同质量方面之间的冲突。我们的方法易于扩展，不需要任何手动注释、强化学习或模型架构更改。大量实验证明，VersaT2I 在各种质量标准上优于基线方法。

Mar, 2024

生成式视觉问答

本研究探讨了一种新的方法来创建先进的视觉问答（VQA）模型，可以在时间泛化上产生成功的结果。通过利用来自 VQAv2 和 MS-COCO 数据集的图像和标题，通过稳定扩散生成新图像。使用这个增强的数据集来测试七个基线和最新的 VQA 模型的组合。该研究的目的是调查几个成功的 VQA 模型的稳健性，评估它们对未来数据分布的性能。分析模型架构，识别改进时间分布偏移下的泛化能力的常见风格选择。这项研究突出了创建大规模未来偏移数据集的重要性，这些数据可以增强 VQA 模型的稳健性，使其未来的同行能够更好地适应时间分布的变化。

Jul, 2023

视觉问答的双重任务：视觉问题生成

提出了 Invertible Question Answering Network (iQAN) 框架，该框架通过对 VQA 和 VQG 任务同时训练，利用图像中的问题和答案之间的互补关系，使用对应的参数共享方案和正则项来明确 Q，A 之间的依赖关系，并且明确地指导训练过程。通过在 CLEVR 和 VQA2 数据集上的评估，我们的 iQAN 在基线上提高了 VQA 的准确性，并表明 iQAN 的双学习框架可以推广到其他 VQA 体系结构，并持续改进结果。

Sep, 2017

WeaQA: 通过标题的弱监督使视觉问答更准确

研究如何使用图像和相关描述文本生成合成的 Q-A 对集合，而无需人工标注，同时利用空间金字塔图像块作为一种简单而有效的 VQA 模型替代方案。

Dec, 2020