TT-BLIP: 使用 BLIP 和 Tri-Transformer 增强虚假新闻检测
该研究介绍了一种监督式多模态双向 Transformer 模型,该模型融合了文本编码器和图像编码器的信息,并在各种多模态分类基准任务上获得了最先进的性能。
Sep, 2019
本文提出了 BLIP 作为新的 VLP 框架,通过引入 captioner 生成合成字幕,并使用 filter 删除噪音数据,能灵活地传输视觉语言理解和生成任务,获得了在一系列视觉语言任务中最先进的结果,同时在零样本任务中也表现出极强的泛化能力。
Jan, 2022
早期检测社交垃圾机器人对于防范传播虚假信息和操控公众意见至关重要。本研究首次使用用户描述字段和图像,采用预训练的视觉模型以及 TwHIN-BERT 来获取文本和图像的表征,并提出了三种不同的融合方法进行多模态融合,并在 Cresci '17 数据集上进行了广泛实验,证明了我们方法在准确率上具有显著优势,达到了 99.98%。
Aug, 2023
本文围绕多模态虚假新闻检测问题,提出了一种新的提取多模态线索的框架,该框架能够充分地考虑图像文本的三种关系,并在实验证明其优于现有文献的方法。
Aug, 2021
本文提出了一种支持多模态控制的主题驱动图像生成模型 BLIP-Diffusion,其中引入了一个新的多模态编码器进行图像和文本的表示。相对于 DreamBooth 等现有方法,该模型使的主题驱动生成零 - shot 成为可能,并且可以高效地进行 fine-tuning,为自定义主题带来了高达 20 倍的加速。同时,BLIP-Diffusion 可以与 ControlNet 和 prompt-to-prompt 等技术灵活结合,实现新的主题驱动生成和编辑应用。
May, 2023
本文提出 BLIP-2,一种通用且高效的预训练策略,通过使用冻结的图像编码器和大型语言模型来引导视觉语言表示学习,从而实现零样本图像到文本的生成。BLIP-2 在各种视觉语言任务上取得了最先进的性能。
Jan, 2023
本文提出了三种基于多模态 transformer 的假新闻检测模型,并通过深入分析操纵数据的方法来探索这些模型在社交媒体上实际使用情况下的性能。研究发现,这些系统在面临被操纵的数据时会出现显著性能下降。为了减少偏差并改善模型的推广能力,本文建议使用数据增强技术对社交媒体上的假新闻检测进行更有意义的实验。所提出的数据增强技术使得模型的泛化能力得到了提高,并获得了最先进的效果。
May, 2023
本研究探讨了如何扩展多模态大型语言模型 (MLLMs) 对区域对象的理解能力,提出了一种提取区域对象特征作为 LLM 的软提示的方法,并通过新颖的 position-assisted 特征提取模块有效地从图像和点云数据中提取区域特征,通过冻结预训练的 MLLM 并对新增模态的参数进行优化,无需进行大规模的图像 - 文本数据预训练即可达到对图像和文本的理解能力,实验证明该方法能够保留 BILP-2 的图像理解能力,并进一步获取对点云模态和区域对象的理解。
Aug, 2023
本文研究了图片到文本和文本到图片生成的联合学习,使用了基于 Transformer 的单个多模式模型来统一学习双向任务,并通过两级粒度特征表示和序列级训练进一步改进 Transformer 的统一框架,实验证明,该方法显著提高了先前基于 Transformer 的模型 X-LXMERT 的文本到图像生成的 FID(37.0→29.9)和在 MS-COCO 数据集上对细调图像到文本生成的 CIDEr-D 得分(100.9%→122.6%)。
Oct, 2021