检索、字幕、生成：视觉基础为文本生成模型增强常识

AAAISep, 2021

检索、字幕、生成：视觉基础为文本生成模型增强常识

Retrieve, Caption, Generate: Visual Grounding for Enhancing Commonsense in Text Generation Models

Steven Y. Feng, Kevin Lu, Zhuofu Tao, Malihe Alikhani, Teruko Mitamura...

TL;DR本研究探讨了利用图像中的多模态信息增强文本生成 Transformer 模型通用知识的有效方法。我们使用 BART 和 T5 进行了实验，并通过 VisCTG 方法成功地改善了通用知识、流畅性和特定性等问题的基线文本生成模型。

Abstract

We investigate the use of multimodal information contained in images as an effective method for enhancing the commonsense of transformer models for text generation. We perform experiments using BART and T5 on con

multimodal information transformer models text generation generative commonsense reasoning visctg

发现论文，激发创造

通过多图像生成改善语言模型中的视觉常识

基于多模态知识的常识推理是根本，我们介绍了一种方法来增强大型语言模型的视觉常识能力，该方法通过生成多个图像并将其与模型的决策过程相融合来提供综合的图像和文本知识。这种方法在不仅在视觉常识上，还在传统自然语言处理基准上优于现有基线模型。

Jun, 2024

多模式检索增强生成式常识推理

提出了一种新颖的多模式检索 (MORE) 增强框架，利用文本和图像来增强语言模型的常识能力。在 Common-Gen 任务上的大量实验表明，MORE 基于单一和多模态的预训练模型具有较高的效果。

Feb, 2024

KM-BART：用于视觉常识生成的知识增强多模态 BART 模型

研究人员提出了一种称为 KM-BART 的知识增强的多模态序列到序列模型，可以从图像和文本的多模态输入中推理出常识知识，进而开发了新的预训练任务来提高模型在视觉常识生成任务中的性能，实验结果表明通过这些新的预训练任务，我们的模型在 VCG 任务上达到了最先进的性能水平。

Jan, 2021

检索增强型通识生成模型

采用检索方法增强先前训练和微调，提出了一种新的框架用于增强常识生成，通过原型句子候选集，进一步使用可训练的句子检索器提高其性能，并在大规模 CommonGen 基准测试上实现了最新的最优结果。

May, 2021

利用文本为视觉表示建立通用领域基础

本文提出了一种基于自然语言监督的跨模态领域泛化方法，利用视觉和文本交互的表征来实现高级别类别判别的信息融合，并使用可解释的模型来生成解释，从而提高模型的泛化能力和性能。作者的方法在多个数据集上均取得了最新领先的结果。

Jul, 2022

基于常识的快速视频时间对齐细节文本对齐学习

本文提出一种基于常识感知的跨模态对齐框架，通过从语料库中提取结构化语义信息，设计跨模态交互模块获得桥接式视觉和文本特征，并将其整合到共同的空间中进行快速视频时间定位。在两个具有挑战性的数据集上，证明该方法能够以高速运行，且表现优于现有的方法。

Apr, 2022

SGEITL: 基于场景图增强的图像 - 文本学习，用于视觉常识推理

该论文提出了一种场景图增强的图像 - 文本学习框架，其中利用视觉场景图结构进行常识推理，通过多跳图变压器实现模型结构的正则化，引入了一种利用文本注释进行域相关的视觉场景图训练和生成的弱监督学习方法并在 VCR 和其他任务中进行了广泛的实验，发现其显着提高了性能并证明了每个提出的组件的有效性。

Dec, 2021

Video2Commonsense: 生成通识描述以丰富视频字幕

通过生成视频常识描述（包括解释动机、影响和描述人物特点）的方法，结合开放式视频常识问答，可以提升通过字幕来理解视频的能力。

Mar, 2020

学习视觉通识以实现强健场景图生成

论文提出了一种通过获取视觉常识来改善场景图生成模型的鲁棒性的方法，并使用 Transformer 模型结合场景图结构训练了 GLAT 模型，该模型可以纠正明显的错误。通过实验证明，该模型比其他方法更好地学习了视觉常识，并提高了最先进场景图生成模型的准确性。

Jun, 2020

常识 T2I 挑战：文本到图像生成模型能否理解常识？

我们提出了一个新的任务和基准，用于评估文本到图像生成模型在现实生活中产生符合常识的图像的能力，我们将其称为常识 - T2I。给定两个对抗性的文本提示，其中包含一组相同的动作词但存在细微差异，例如 “没有电的灯泡” 与 “有电的灯泡”，我们评估 T2I 模型是否能进行视觉常识推理，即生成与 “灯泡未点亮” 和 “灯泡点亮” 相符的图像。常识 - T2I 提出了一个对抗性挑战，提供成对的文本提示和预期输出。该数据集由专家精心策划，并用细粒度标签进行注释，例如常识类型和预期输出的可能性，以帮助分析模型行为。我们对各种最先进的 T2I 模型进行了评测，令人惊讶的发现，图像合成与真实生活照片之间仍存在很大差距 —— 即使是 DALL-E 3 模型在常识 - T2I 上的准确率也仅为 48.92％，稳定的扩散 XL 模型仅能达到 24.92％的准确率。我们的实验证明 GPT 强化的提示无法解决这一挑战，并对可能导致此类不足的原因进行了详细分析。我们的目标是将常识 - T2I 作为 T2I 常识检查的高质量评估基准，促进实际生活图像生成的进展。

Jun, 2024