图像文本生成的进展 —— 以自我合理化为案例研究

EMNLPMay, 2022

图像文本生成的进展 —— 以自我合理化为案例研究

On Advances in Text Generation from Images Beyond Captioning: A Case Study in Self-Rationalization

Shruti Palaskar, Akshita Bhagia, Yonatan Bisk, Florian Metze, Alan W Black...

TL;DR探索多模态模型在联合图像和文本生成任务中的表现，并发现单一模型类型不能通用地在所有任务、数据集和微调数据大小上表现最佳，加深了对从图像和文本生成超越图像字幕的新型通用骨干方法的需求。

Abstract

Combining the visual modality with pretrained language models has been surprisingly effective for simple descriptive tasks such as image captioning. More general text generation however remains elusive. We take a step back and ask: How do these models work for more complex generative t

multimodal models pretrained language models self-rationalization visual question answering visual commonsense reasoning

发现论文，激发创造

通过文本生成统一视觉语言任务

该研究提出了一个统一框架，通过相同的语言建模目标，在单个体系结构中学习不同的任务，实现视频图像理解、语言推理和标签生成等领域的应用。通过在多个基准测试中的表现，这种生成方法（在单个统一的体系结构下）显示出了与最先进的特定任务模型相当的性能，并且还显示了更好的推广能力和单个任务模型相似的多任务学习能力。

Feb, 2021

融合模型用于改进视觉字幕生成

本文提出了一个通用的多模态模型融合框架，以及将预训练的辅助语言模型 (AuxLM) 和掩码语言模型 (MLM) 进行多模态融合，以改进生成的图像描述的质量和纠正其语法和语义错误。在三个基准数据集上的实验结果显示出了明显的改进。

Oct, 2020

新闻故事：用视觉摘要来说明文章

该研究探索了一个新的问题，即学习对不同长度和数量的图像文本具有强鲁棒性的自我监督视觉语言表示法，其介绍了一个包括超过 31M 篇文章，22M 张图片和 1M 个视频的大规模多模态数据集，并表明最先进的图像文本对齐方法不能很好地处理带有多张图像和更长篇幅的叙述，且还提出了一种直观的基线方法，在 GoodNews 数据集上零样本图像集检索表现比这些方法高出 10%。

Jul, 2022

通过多图像生成改善语言模型中的视觉常识

基于多模态知识的常识推理是根本，我们介绍了一种方法来增强大型语言模型的视觉常识能力，该方法通过生成多个图像并将其与模型的决策过程相融合来提供综合的图像和文本知识。这种方法在不仅在视觉常识上，还在传统自然语言处理基准上优于现有基线模型。

Jun, 2024

面向多模态视觉语言模型生成非通用文本

本文主要介绍了一种将人名加入生成文本的新方法，通过使用 OCR 识别图像中的文字并 fine-tuning 预训练模型，我们的方法在生成文本的时候自然地加入了人名信息。为了达到这个目的，我们修改了之前的多模态框架，接受来自任意数量的辅助分类器提供的相关信息。同时，我们创建了一个新的图像 - 标题数据集，名为 PAC，这个数据集包含了一些知名人物的图像和对这些图像的描述，这些描述中包含了人名。

Jul, 2022

利用文本为视觉表示建立通用领域基础

本文提出了一种基于自然语言监督的跨模态领域泛化方法，利用视觉和文本交互的表征来实现高级别类别判别的信息融合，并使用可解释的模型来生成解释，从而提高模型的泛化能力和性能。作者的方法在多个数据集上均取得了最新领先的结果。

Jul, 2022

自我想象：使用多模态模型进行高效单模态推理

使用 Vision-Language Models 和 HTML 生成结构化问题的图像化表示，并使用相同的 Vision-Language Model 回答问题。该方法在数学任务和推理任务中提高了性能。

Jan, 2024

通过合成任务数据评估多模态推理模型的能力

该论文通过高分辨率的文本图像生成技术，开发了一种针对多模态推理任务的评估数据生成框架，并使用此框架生成了一种复杂且缺乏数据集支持的任务的合成数据集，以进行性能测试。研究发现，在这项任务上，最先进的视觉问答模型的性能明显低于标准 VQA 任务。

Jun, 2023

面向多任务多模态模型的视频生成视角

通过构建多任务模型、保留高保真度的视频本机时空分词器、以及可解释的词汇术语与视觉观察之间的映射，我们的研究证明了多模态潜在空间设计的可行性，并提出了一种优于行业标准编解码器的视频本机时空分词器，从而在视频合成方面实现了语言模型超越扩散模型的首次突破。进一步地，我们的可扩展视觉令牌表示法在生成、压缩和理解任务中都表现出明显的优势。这项研究的成果为未来在生成非文本数据、实现实时互动体验等方面提供了有趣的潜力。

May, 2024

从像素到语义框架到常识图谱的全栈视觉推理自然语言理由

本文介绍了首个以生成自然语言解释为中心的研究，该研究关注复杂的视觉推理任务，包括视觉常识推理、视觉文本蕴含和视觉问答。文章提出了 Rationale^VT Transformer，该模型通过结合预训练的语言模型、对象识别、基于视觉的语义框架和视觉常识图生成自由文本解释，实现了全面的图像理解，并且实验证明，自然语言解释是用于复杂视觉 - 文本推理任务的一种具有前景的研究方向。

Oct, 2020