检测大型 AI 模型生成的多媒体内容:一项调研
多模态生成技术的调查,介绍了不同领域中的重要进展,包括图像、视频、3D 和音频,研究了方法和数据集,还提出了使用现有生成模型进行人机交互的工具增强型多模态代理,同时探讨了人工智能安全问题和新兴应用及未来前景。
May, 2024
通过定性和定量实验,我们调查了多模式大型语言模型在 DeepFake 检测中的能力,并展示了它们通过仔细的实验设计和及时的工程设计可以揭示 AI 生成的图像,而这一过程并不需要编程。我们讨论了多模式大型语言模型在这些任务中的局限性,并提出可能的改进。
Mar, 2024
综述了大规模语言模型(LLMs)生成内容检测的现有策略和基准,并指出该领域的关键挑战和前景,提倡采用更加适应性和稳健的模型来提高检测准确性,以及应对 LLMs 能力快速发展的多方面防御方法的必要性。该工作是在 LLMs 时代首部全面综述内容检测的研究,旨在为研究人员和从业者提供广泛了解 LLMs 生成内容检测的当前情况的指导参考,以保护数字信息的完整性。
Oct, 2023
介绍了 RU-AI 数据集,该数据集是一个大规模的多模态数据集,旨在鲁棒且高效地检测文本、图像和语音中的机器生成内容;提出了一个统一模型,该模型融合了多模态嵌入模块和多层感知器网络,能够有效确定数据的来源(即原始数据样本还是机器生成的数据)。
Jun, 2024
通过对深度伪造检测方法的综述研究,本论文提供了面向人脸为中心的深度伪造技术的分类、检测方法的演化以及适应新的生成模型的挑战,并探索了提高深度伪造检测器的可靠性和稳健性的方向。
Jun, 2024
多模态大型语言模型(MLLMs)的整合增强了其功能,但也带来了安全漏洞,本研究旨在分析并总结 MLLMs 的攻击和防御机制,并提出未来研究的建议,以深化对 MLLM 安全挑战的学术理解和发展可信赖的 MLLM 系统。
Apr, 2024
本论文介绍了我们在 SemEval2024 Task8 中用于检测跨各个领域的机器生成文本的方法,包括统计、神经网络和预训练模型方法,并通过深入的错误分析评估了这些方法的有效性。在单语和多语境下,我们的方法在子任务 A 单语上获得 86.9%的准确率,在子任务 B 上获得 83.7%的准确率。此外,我们还强调了未来研究中的挑战和重要因素。
Mar, 2024
深度伪造是通过人工智能生成的媒体,其中图像或视频经过数字修改。本研究提出了一种基于音视频的深度伪造检测方法,将细粒度的深度伪造识别与二元分类结合,增强了在域内和跨域测试下的检测能力。
Oct, 2023
通过融合先进的目标检测和光学字符识别模型,我们在多模态大型语言模型的基础上进行了实证研究,以改善对细粒度图像理解的能力并减少回应中的虚构现象。我们的研究探讨了融合检测信息的基于嵌入的方法,该方法对原始多模态大型语言模型的影响以及检测模型的互换性。通过与 LLaVA-1.5、DINO 和 PaddleOCRv2 等模型进行系统实验,我们发现我们的方法不仅在特定的视觉任务中提高了多模态大型语言模型的性能,而且保持了其原始优势。结果表明,改进后的多模态大型语言模型在 10 个基准测试中有 9 个超过了先进模型,在规范化的平均得分上取得了最高 12.99% 的提升,标志着多模态理解领域的重大进展。通过发布我们的代码,我们希望进一步探索多模态大型语言模型在细粒度多模态对话能力方面的应用。
Jan, 2024