MMIDR：通过知识蒸馏教授大型语言模型解读多模态误信息

Mar, 2024

MMIDR：通过知识蒸馏教授大型语言模型解读多模态误信息

MMIDR: Teaching Large Language Model to Interpret Multimodal Misinformation via Knowledge Distillation

Longzheng Wang, Xiaohan Xu, Lei Zhang, Jiarui Lu, Yongxiu Xu...

TL;DR提出了 MMIDR 框架，用于教授大型语言模型在多模态错误信息检测中提供流畅、高质量的文本解释，通过数据增强和流程设计，将多模态错误信息转化为适当的指令遵循格式，再利用知识蒸馏方法将专有模型的解释能力传递给开源模型，实验证明 MMIDR 具有足够的检测性能，并能够提供有力的解释支持。

Abstract

Automatic detection of multimodal misinformation has gained a widespread attention recently. However, the potential of powerful large language models (LLMs) for →

multimodal misinformation large language models mmidr instruction-following format knowledge distillation

发现论文，激发创造

大型语言模型是否能理解内容和传播路径以检测虚假信息：一个实证研究

大型语言模型在虚假信息检测任务中的性能研究显示，多样的启发式方式和多个实例学习策略可以提高大型语言模型在文本和传播结构理解方面的检测性能，突出了大型语言模型检测虚假信息的潜在能力。

Nov, 2023

LEMMA: 用外部知识增强的 LVLM 增强型多模态误信息检测

利用 Large Vision Language Model（LVLM）及外部知识增强的 LEMMA 方法，大幅提升了多模态错误信息检测的准确性。

Feb, 2024

可解释的多模态逻辑推理误信息检测

提出一种新颖的基于逻辑的神经模型，该模型将可解释的逻辑子句集成到目标任务的推理过程中，以检测多模态误解信息，通过在神经表示中参数化符号逻辑元素来实现学习的有效性，并引入五个元预测以使我们的框架具有多样性。

May, 2023

支持现实世界事实核查的多模态大型语言模型

对多模态大型语言模型在事实检查方面的能力和局限性进行了系统评估，发现 GPT-4V 在识别恶意和误导性多模态论断方面表现出优越性能，具备解释不合理方面和潜在动机的能力，同时已有的开源模型存在强烈的偏见，并对提示非常敏感。这项研究为对抗虚假多模态信息和构建安全可靠的多模态模型提供了启示，据我们所知，这是第一次对多模态大型语言模型进行真实世界事实检查的评估。

Mar, 2024

多模态语言模型的性能评估

该研究分析了不同的多模态指导调优方法，并评估了它们在复杂推理、对话、图像字幕、多项选择题和二元分类等任务中的性能，揭示了在将多模态能力融入大型语言模型时的架构选择的关键见解，但当前方法存在局限性，未能充分解决丰富多样的多模态指导数据集的需求和生成响应的真实性和事实性问题，这些发现阐明了适应图像理解的语言模型的现有方法学限制，并为寻求利用多模态版本的大型语言模型的研究人员和实践者提供了有价值的指导。

Oct, 2023

多模式大型语言模型综述

本文旨在追踪和总结 MLLM 的最新进展，包括 MLLM 的公式，技术和应用，以及现有的挑战和有前途的研究方向。

Jun, 2023

大型语言模型对误导性污染的风险

本文研究了现代大型语言模型的潜在滥用问题，并探讨其对信息密集型应用的影响，特别是对开放式问题回答系统。我们建立了一个威胁模型，模拟了可能的滥用场景，证明了大型语言模型可以作为有效的错误信息产生器，导致开放式问题回答系统的性能显著降低。为了减轻大型语言模型生成的错误信息带来的危害，我们探索了三种防御策略：提示、错误信息检测和多数投票。尽管最初的结果显示这些防御策略具有有利趋势，但仍需要更多的工作来解决错误信息污染的挑战。我们的工作强调了进一步研究和跨学科合作的必要性，以应对大型语言模型生成的错误信息，促进大型语言模型的负责任使用。

May, 2023

MLLMReID: 基于多模态大型语言模型的人员再识别

这篇论文提出了一种名为 MLLMReID 的多模态大型语言模型，通过细调和指导学习的方式来优化人员再识别任务，并通过实验证明了其优越性。

Jan, 2024

释放力量：多模态大型语言模型的竞争蒸馏

提出了一种创新的 Competitive Multi-modal Distillation（CoMD）框架，捕捉学生模型和教师模型之间的双向反馈，并不断更新学生模型学到的多模态能力，研究结果表明，我们的知识迁移方法在各种数据集上稳定提升了学生模型的能力，经过四次蒸馏后，7B 大小的学生模型在 ScienceQA 和 LLaVA Test 数据集上超过了当前最先进的 LLaVA-13B 模型，在零样本设置下也优于其他强基线模型。

Nov, 2023

南非社交媒体环境中的多模态错误信息检测

本研究旨在调查虚假信息检测模型在不同背景环境下的知识可转移性，为南非社交媒体环境提供一种多模态虚假信息检测模型，并引入南非虚假信息数据集。结果表明，将南非样本用于模型训练可以提高模型性能，并且多模态模型比文本和视觉单模态模型保留更多知识。研究表明，虚假信息检测模型的性能受其运行环境的文化细微差别影响，并且多模态模型有助于在不同背景环境之间的知识转移。因此，在虚假信息检测模型的训练过程中应该纳入本地数据以优化模型性能。

Dec, 2023