TT-BLIP: 使用 BLIP 和 Tri-Transformer 增强虚假新闻检测

Mar, 2024

TT-BLIP: 使用 BLIP 和 Tri-Transformer 增强虚假新闻检测

TT-BLIP: Enhancing Fake News Detection Using BLIP and Tri-Transformer

Eunjee Choi, Jong-Kook Kim

TL;DR通过融合多模态信息的 TT-BLIP 模型，结合文本、图像和多模态信息的三种处理机制，进行假新闻的检测与分析，结果表明 TT-BLIP 模型优于现有最先进模型。

Abstract

Detecting fake news has received a lot of attention. Many previous methods concatenate independently encoded unimodal data, ignoring the benefits of integrated multimodal information. Also, the absence of special

fake news multimodal information end-to-end model tt-blip unified vision-language understanding

发现论文，激发创造

用于图像和文本分类的监督多模式双向转换器

该研究介绍了一种监督式多模态双向 Transformer 模型，该模型融合了文本编码器和图像编码器的信息，并在各种多模态分类基准任务上获得了最先进的性能。

Sep, 2019

BLIP: 为实现统一的视觉语言理解与生成，引入语言 - 图像引导预训练

本文提出了 BLIP 作为新的 VLP 框架，通过引入 captioner 生成合成字幕，并使用 filter 删除噪音数据，能灵活地传输视觉语言理解和生成任务，获得了在一系列视觉语言任务中最先进的结果，同时在零样本任务中也表现出极强的泛化能力。

Jan, 2022

利用 Transformer 在 Twitter 中多模态检测社交垃圾机器人

早期检测社交垃圾机器人对于防范传播虚假信息和操控公众意见至关重要。本研究首次使用用户描述字段和图像，采用预训练的视觉模型以及 TwHIN-BERT 来获取文本和图像的表征，并提出了三种不同的融合方法进行多模态融合，并在 Cresci '17 数据集上进行了广泛实验，证明了我们方法在准确率上具有显著优势，达到了 99.98%。

Aug, 2023

基于多粒度信息融合的社交媒体多模态假新闻检测

文章介绍了一种用于检测假新闻的多粒度多模态融合网络模型，并将模型性能与现有方法进行了比较。

Apr, 2023

利用实体增强框架融合多模态线索提高假新闻检测

本文围绕多模态虚假新闻检测问题，提出了一种新的提取多模态线索的框架，该框架能够充分地考虑图像文本的三种关系，并在实验证明其优于现有文献的方法。

Aug, 2021

BLIP-Diffusion: 预训练主体表示，用于可控文本到图像生成和编辑

本文提出了一种支持多模态控制的主题驱动图像生成模型 BLIP-Diffusion，其中引入了一个新的多模态编码器进行图像和文本的表示。相对于 DreamBooth 等现有方法，该模型使的主题驱动生成零 - shot 成为可能，并且可以高效地进行 fine-tuning，为自定义主题带来了高达 20 倍的加速。同时，BLIP-Diffusion 可以与 ControlNet 和 prompt-to-prompt 等技术灵活结合，实现新的主题驱动生成和编辑应用。

May, 2023

BLIP-2：使用冻结图像编码器和大型语言模型引导语言图像预训练

本文提出 BLIP-2，一种通用且高效的预训练策略，通过使用冻结的图像编码器和大型语言模型来引导视觉语言表示学习，从而实现零样本图像到文本的生成。BLIP-2 在各种视觉语言任务上取得了最先进的性能。

Jan, 2023

提高多模态假新闻检测的泛化能力

本文提出了三种基于多模态 transformer 的假新闻检测模型，并通过深入分析操纵数据的方法来探索这些模型在社交媒体上实际使用情况下的性能。研究发现，这些系统在面临被操纵的数据时会出现显著性能下降。为了减少偏差并改善模型的推广能力，本文建议使用数据增强技术对社交媒体上的假新闻检测进行更有意义的实验。所提出的数据增强技术使得模型的泛化能力得到了提高，并获得了最先进的效果。

May, 2023

RegionBLIP：面向整体和区域理解的统一多模态预训练框架

本研究探讨了如何扩展多模态大型语言模型 (MLLMs) 对区域对象的理解能力，提出了一种提取区域对象特征作为 LLM 的软提示的方法，并通过新颖的 position-assisted 特征提取模块有效地从图像和点云数据中提取区域特征，通过冻结预训练的 MLLM 并对新增模态的参数进行优化，无需进行大规模的图像 - 文本数据预训练即可达到对图像和文本的理解能力，实验证明该方法能够保留 BILP-2 的图像理解能力，并进一步获取对点云模态和区域对象的理解。

Aug, 2023

双向图像与文本生成统一多模态转换器

本文研究了图片到文本和文本到图片生成的联合学习，使用了基于 Transformer 的单个多模式模型来统一学习双向任务，并通过两级粒度特征表示和序列级训练进一步改进 Transformer 的统一框架，实验证明，该方法显著提高了先前基于 Transformer 的模型 X-LXMERT 的文本到图像生成的 FID（37.0→29.9）和在 MS-COCO 数据集上对细调图像到文本生成的 CIDEr-D 得分（100.9%→122.6%）。

Oct, 2021