KM-BART：用于视觉常识生成的知识增强多模态 BART 模型

ACLJan, 2021

KM-BART：用于视觉常识生成的知识增强多模态 BART 模型

KM-BART: Knowledge Enhanced Multimodal BART for Visual Commonsense Generation

Yiran Xing, Zai Shi, Zhao Meng, Gerhard Lakemeyer, Yunpu Ma...

TL;DR研究人员提出了一种称为 KM-BART 的知识增强的多模态序列到序列模型，可以从图像和文本的多模态输入中推理出常识知识，进而开发了新的预训练任务来提高模型在视觉常识生成任务中的性能，实验结果表明通过这些新的预训练任务，我们的模型在 VCG 任务上达到了最先进的性能水平。

Abstract

We present knowledge enhanced multimodal bart (KM-BART), which is a transformer-based sequence-to-sequence model capable of reasoning about commonsense knowledge from →

knowledge enhanced multimodal bart transformer-based sequence-to-sequence model multimodal inputs visual commonsense generation knowledge-based commonsense generation

发现论文，激发创造

KG-BART: 生成通识推理的知识图谱增强 BART 模型

通过加入知识图谱，KG-BART 提出一种新颖的预训练语言生成模型，以增强通用常识推理的能力，提高生成的句子的逻辑性和自然度，并通过 CommonGen 数据集取得了显著的效果提升，可作为后续社区感知 QA 任务的场景背景。

Sep, 2020

检索、字幕、生成：视觉基础为文本生成模型增强常识

本研究探讨了利用图像中的多模态信息增强文本生成 Transformer 模型通用知识的有效方法。我们使用 BART 和 T5 进行了实验，并通过 VisCTG 方法成功地改善了通用知识、流畅性和特定性等问题的基线文本生成模型。

Sep, 2021

VLC-BERT：上下文化通识知识视觉问答

本研究提出了 VLC-BERT 模型，该模型针对需要常识推理的视觉问答任务，通过使用预训练的 Commonsense Transformer（COMET）模型产生、选择和编码外部常识知识，结合视觉和文本线索，超越了使用静态知识库的现有模型.

Oct, 2022

双重知识增强生成预训练语言模型的多模态对话系统

本文提出了一个可以双重增强知识的生成式语言模型，用于为多模态任务导向式对话系统生成适当的文本响应。实验证明，该模型优于现有竞争对手。

Jul, 2022

使用预训练多模态 Transformer 和双负采样完成知识图谱补全

提出了一个基于 VisualBERT 的增强型知识图谱补全模型 (VBKGC)，其采用了双胞胎负采样策略，能够捕捉基于嵌入的多模态信息并将其集成到 KGC 模型中，具有优秀的链路预测任务表现。

Sep, 2022

KG-BERT: 知识图谱补全任务的 BERT 模型

本研究提出使用预训练语言模型来完成知识图谱，使用 KG-BERT 架构对知识图谱中的三元组进行建模，通过实验结果显示，该方法在三元组分类、链接预测和关系预测任务中均可以达到最佳表现。

Sep, 2019

COMET: 用于自动知识图谱构建的常识 Transformer

我们提出了 COMET，一种生成通用语言的丰富多样的常识知识描述的模型，并在 ATOMIC 和 ConceptNet 这两个通用常识图的自动知识库构建方面取得了优秀的结果。

Jun, 2019

通过多图像生成改善语言模型中的视觉常识

基于多模态知识的常识推理是根本，我们介绍了一种方法来增强大型语言模型的视觉常识能力，该方法通过生成多个图像并将其与模型的决策过程相融合来提供综合的图像和文本知识。这种方法在不仅在视觉常识上，还在传统自然语言处理基准上优于现有基线模型。

Jun, 2024

MSG-BART: 视频情景增强的多粒度编码器 - 解码器语言模型用于基于视频的对话生成

提出了一种名为 MSG-BART 的新方法，通过将多粒度时空场景图集成到编码器 - 解码器预训练语言模型中，增强了视频信息的整合，改进了整体感知和目标推理能力，进一步提高了信息选择能力。在三个视频对话基准测试上进行了广泛的实验，表明 MSG-BART 相比一系列最先进的方法具有显著的优势。

Sep, 2023

KAT：一种知识增强的视觉与语言 Transformer 模型

本文介绍了一种新型多模态转换方法 - 知识增强变压器（KAT），该方法在 OK-VQA 上取得了强有力的最新结果，同时还提高了模型预测的可解释性。

Dec, 2021