SHIELD: 多模态大型语言模型的人脸冒充与伪造检测评估基准
提出了一种名为 AdaShield 的方法,通过在输入前添加防御提示来防御结构性越狱攻击,无需对 MLLMs 进行微调或训练额外的模块,并通过广泛实验证明了该方法可以提高 MLLMs 对结构性越狱攻击的鲁棒性。
Mar, 2024
该研究提出了一种基于大型语言模型的安全检测器 ShieldLM,它遵循通用的人类安全标准,支持可定制的检测规则,并提供其决策的解释。通过在包括 14,387 个查询 - 响应对的大型双语数据集上进行训练,研究表明,ShieldLM 在四个测试集上超越了强基准,展示了出色的可定制性和可解释性。除了在标准检测数据集上表现良好外,ShieldLM 还被证明在实际应用中作为先进语言模型的安全评估器具有有效性。通过 https://github.com/thu-coai/ShieldLM 发布的 ShieldLM 可以在各种安全标准下支持准确和可解释的安全检测,并为增强大型语言模型的安全性的持续努力做出贡献。
Feb, 2024
通过融合先进的目标检测和光学字符识别模型,我们在多模态大型语言模型的基础上进行了实证研究,以改善对细粒度图像理解的能力并减少回应中的虚构现象。我们的研究探讨了融合检测信息的基于嵌入的方法,该方法对原始多模态大型语言模型的影响以及检测模型的互换性。通过与 LLaVA-1.5、DINO 和 PaddleOCRv2 等模型进行系统实验,我们发现我们的方法不仅在特定的视觉任务中提高了多模态大型语言模型的性能,而且保持了其原始优势。结果表明,改进后的多模态大型语言模型在 10 个基准测试中有 9 个超过了先进模型,在规范化的平均得分上取得了最高 12.99% 的提升,标志着多模态理解领域的重大进展。通过发布我们的代码,我们希望进一步探索多模态大型语言模型在细粒度多模态对话能力方面的应用。
Jan, 2024
利用人工智能技术生成的虚假图像与真实图像已经变得难以区分,对于虚假图像检测模型带来了新的挑战。为此,我们提出了 FakeBench,这是首个透明的虚假图像检测基准,包括带有人类语言描述的伪造迹象的虚假图像。我们构建了包括 6k 个多样化来源的虚假和真实图像的 FakeClass 数据集,用于评估图像真实性的检测能力。此外,我们还构建了包含 15k 个描述虚假图像伪造迹象的关键线索的 FakeClue 数据集,以及用于衡量大型多模态模型在细粒度真实性相关方面的开放性问题回答能力的 FakeQA 数据集。实验结果表明,当前的大型多模态模型在图像虚假检测方面具有中等的识别能力、初步的解释和推理能力以及可接受的开放性问题回答能力。FakeBench 将很快公开。
Apr, 2024
当前的多模态误信息检测(MMD)方法通常假设每个样本只有一个来源和一种伪造类型,这对于存在多个伪造来源的现实场景是不足够的。缺乏混合来源误信息的基准已经妨碍了这个领域的进展。为了解决这个问题,我们引入了 MMFakeBench,这是第一个全面的混合来源 MMD 基准。MMFakeBench 包括文本真实性失真、视觉真实性失真和跨模态一致性失真这三个关键来源,以及 12 个不同类别的误信息伪造类型。我们在零 - shot 设置下对 MMFakeBench 进行了 6 种流行的检测方法和 15 个大规模视觉语言模型(LVLMs)的广泛评估。结果表明,当前的方法在这个具有挑战性和现实的混合来源 MMD 环境下表现不佳。此外,我们提出了一种创新的统一框架,将 LVLM 智能体的逻辑、行动和工具使用能力相结合,显著提高了准确性和概括能力。我们相信这项研究将推动未来对更加真实的混合来源多模态误信息的研究,并提供对误信息检测方法的公正评估。
Jun, 2024
CASIA-SURF 是迄今最大的人脸反欺诈公共数据集,提出了一种基于特征重新加权的多模态融合方法,并在数据集上进行了广泛的实验,验证了其重要性和通用性。
Dec, 2018
本文提出了一种基于 Transformer 的框架,名为 Flexible Modal Vision Transformer (FM-ViT),用于面部防欺骗,以灵活地针对任何单模态攻击情景和可用的多模态数据。实验结果表明,单个基于 FM-ViT 的模型不仅可以灵活评估不同的模态样本,而且在较小的 FLOPs 和模型参数的情况下,也可以超越现有的单模态框架,并与多模态框架的性能相当。
May, 2023
通过定性和定量实验,我们调查了多模式大型语言模型在 DeepFake 检测中的能力,并展示了它们通过仔细的实验设计和及时的工程设计可以揭示 AI 生成的图像,而这一过程并不需要编程。我们讨论了多模式大型语言模型在这些任务中的局限性,并提出可能的改进。
Mar, 2024
本文评估用于对抗敌对攻击的压缩式防御框架 SHIELD 的效力,并在原有工作的基础上考虑了替代威胁模型,提出了具有不同危险程度的情况,并通过实验结果得出了在白盒和灰盒情景下训练模型的相关性与承受目标攻击成功率的相关性,证明了从零开始训练模型的更强鲁棒性。
Feb, 2019
通过元学习,提出了一种新的方法 —— 自适应内部更新元人脸反欺诈方法(AIM-FAS),来解决面部防欺诈中的零样本和小样本学习问题,并在零样本反欺诈测试中表现出了优异的性能。
Apr, 2019