检测大型 AI 模型生成的多媒体内容：一项调研

Jan, 2024

检测大型 AI 模型生成的多媒体内容：一项调研

Detecting Multimedia Generated by Large AI Models: A Survey

Li Lin, Neeraj Gupta, Yue Zhang, Hainan Ren, Chun-Hao Liu...

TL;DR通过系统的调查研究，我们填补了一个学术空白，为全球人工智能安全努力做出贡献，帮助确保数字领域中信息的完整性。

Abstract

The rapid advancement of large ai models (LAIMs), particularly diffusion models and large language models, has marked a new era where AI-generated multimedia is increasingly integrated into various aspects of dai

large ai models multimedia detecting detection methods ai security

发现论文，激发创造

LLMs 满足多模态生成和编辑的综述

多模态生成技术的调查，介绍了不同领域中的重要进展，包括图像、视频、3D 和音频，研究了方法和数据集，还提出了使用现有生成模型进行人机交互的工具增强型多模态代理，同时探讨了人工智能安全问题和新兴应用及未来前景。

May, 2024

ChatGPT 能否检测 DeepFakes? 使用多模态大型语言模型进行媒体取证研究

通过定性和定量实验，我们调查了多模式大型语言模型在 DeepFake 检测中的能力，并展示了它们通过仔细的实验设计和及时的工程设计可以揭示 AI 生成的图像，而这一过程并不需要编程。我们讨论了多模式大型语言模型在这些任务中的局限性，并提出可能的改进。

Mar, 2024

LLMs 生成内容检测调查

综述了大规模语言模型（LLMs）生成内容检测的现有策略和基准，并指出该领域的关键挑战和前景，提倡采用更加适应性和稳健的模型来提高检测准确性，以及应对 LLMs 能力快速发展的多方面防御方法的必要性。该工作是在 LLMs 时代首部全面综述内容检测的研究，旨在为研究人员和从业者提供广泛了解 LLMs 生成内容检测的当前情况的指导参考，以保护数字信息的完整性。

Oct, 2023

RU-AI：一个用于机器生成内容检测的大型多模态数据集

介绍了 RU-AI 数据集，该数据集是一个大规模的多模态数据集，旨在鲁棒且高效地检测文本、图像和语音中的机器生成内容；提出了一个统一模型，该模型融合了多模态嵌入模块和多层感知器网络，能够有效确定数据的来源（即原始数据样本还是机器生成的数据）。

Jun, 2024

由单模态向多模态人脸 Deepfake 检测的发展：一项调查

通过对深度伪造检测方法的综述研究，本论文提供了面向人脸为中心的深度伪造技术的分类、检测方法的演化以及适应新的生成模型的挑战，并探索了提高深度伪造检测器的可靠性和稳健性的方向。

Jun, 2024

狂放的伊卡洛斯：多模态大语言模型安全中图像输入的潜在危险调研

多模态大型语言模型（MLLMs）的整合增强了其功能，但也带来了安全漏洞，本研究旨在分析并总结 MLLMs 的攻击和防御机制，并提出未来研究的建议，以深化对 MLLM 安全挑战的学术理解和发展可信赖的 MLLM 系统。

Apr, 2024

SemEval-2024 任务 8：多领域机器生成文本检测技术的综合分析

本论文介绍了我们在 SemEval2024 Task8 中用于检测跨各个领域的机器生成文本的方法，包括统计、神经网络和预训练模型方法，并通过深入的错误分析评估了这些方法的有效性。在单语和多语境下，我们的方法在子任务 A 单语上获得 86.9％的准确率，在子任务 B 上获得 83.7％的准确率。此外，我们还强调了未来研究中的挑战和重要因素。

Mar, 2024

多模式大型语言模型综述

本文旨在追踪和总结 MLLM 的最新进展，包括 MLLM 的公式，技术和应用，以及现有的挑战和有前途的研究方向。

Jun, 2023

整合视听特征用于多模态深度伪造检测

深度伪造是通过人工智能生成的媒体，其中图像或视频经过数字修改。本研究提出了一种基于音视频的深度伪造检测方法，将细粒度的深度伪造识别与二元分类结合，增强了在域内和跨域测试下的检测能力。

Oct, 2023

利用视觉检测模型增强多模态大型语言模型：实证研究

通过融合先进的目标检测和光学字符识别模型，我们在多模态大型语言模型的基础上进行了实证研究，以改善对细粒度图像理解的能力并减少回应中的虚构现象。我们的研究探讨了融合检测信息的基于嵌入的方法，该方法对原始多模态大型语言模型的影响以及检测模型的互换性。通过与 LLaVA-1.5、DINO 和 PaddleOCRv2 等模型进行系统实验，我们发现我们的方法不仅在特定的视觉任务中提高了多模态大型语言模型的性能，而且保持了其原始优势。结果表明，改进后的多模态大型语言模型在 10 个基准测试中有 9 个超过了先进模型，在规范化的平均得分上取得了最高 12.99% 的提升，标志着多模态理解领域的重大进展。通过发布我们的代码，我们希望进一步探索多模态大型语言模型在细粒度多模态对话能力方面的应用。

Jan, 2024