May, 2024

Sora 检测器:针对大型文字视频模型的统一幻想检测

TL;DR为了解决文本到视频(T2V)生成模型中的幻觉问题,本研究引入了一种名为 SoraDetector 的新型统一框架,通过对幻觉现象的综合分析和关键帧提取技术,利用多模式大型语言模型构建静态和动态知识图,在单帧和多帧中检测幻觉,并通过自动化工具生成完整的视频质量报告。同时,还开发了一个用于评估 T2V 幻觉检测进展的元评估基准 T2VHaluBench,并通过在 Sora 和其他大型 T2V 模型生成的视频上进行广泛实验,证明了我们的方法在准确检测幻觉方面的有效性。