Sora 检测器：针对大型文字视频模型的统一幻想检测

May, 2024

Sora 检测器：针对大型文字视频模型的统一幻想检测

Sora Detector: A Unified Hallucination Detection for Large Text-to-Video Models

Zhixuan Chu, Lei Zhang, Yichen Sun, Siqiao Xue, Zhibo Wang...

TL;DR为了解决文本到视频（T2V）生成模型中的幻觉问题，本研究引入了一种名为 SoraDetector 的新型统一框架，通过对幻觉现象的综合分析和关键帧提取技术，利用多模式大型语言模型构建静态和动态知识图，在单帧和多帧中检测幻觉，并通过自动化工具生成完整的视频质量报告。同时，还开发了一个用于评估 T2V 幻觉检测进展的元评估基准 T2VHaluBench，并通过在 Sora 和其他大型 T2V 模型生成的视频上进行广泛实验，证明了我们的方法在准确检测幻觉方面的有效性。

Abstract

The rapid advancement in text-to-video (T2V) generative models has enabled the synthesis of high-fidelity video content guided by textual descriptions. Despite this significant progress, these models are often susceptible to hallucination, generating contents that contradict the input text, which poses a challenge to their reliability and practical deploymen

text-to-video generative models hallucination detection soradetector knowledge graphs t2vhalubench

发现论文，激发创造

零样本多任务幻觉检测

在这项研究中，我们正式定义了虚构，并提出了一种在零镜头环境中定量检测虚构的框架，利用我们的定义和模型输出包含任务和样本特定输入的假设。我们的解决方案在模型感知环境中实现了 0.78 的准确度，在模型无关环境中实现了 0.61 的准确度。值得注意的是，我们的解决方案保持了计算效率，比其他现有方法需要更少的计算资源，符合轻量化和压缩模型的趋势。

Mar, 2024

大型视觉语言模型中的幻觉检测与预防

介绍 M-HalDetect，一个用于训练和评估幻觉检测和预防模型的多模态幻觉检测数据集。使用 Fine-grained Direct Preference Optimization 和拒绝抽样方法，成功减少了幻觉率，为视觉问题回答任务提供了重要的改进。

Aug, 2023

基于令牌级别的无参考幻象检测基准测试 —— 自由形式文本生成

该研究提出了一种基于 token 级别的、无参考幻觉检测任务以及相应的 HaDes 数据集，旨在解决预训练生成模型的幻觉问题，并通过迭代模型策略来减轻标签不平衡问题。

Apr, 2021

Sora 作为 AGI 世界模型？关于文本转视频生成的全面调查

文本到视频生成技术的进展与 Sora 模型的发展路径和应用，以及技术挑战与未来改进方向进行全面探讨，旨在促进文本到视频生成领域的创新与讨论。

Mar, 2024

Sora: 大尺度视觉模型的背景、技术、限制和机遇综述

This paper provides a comprehensive review of the Sora text-to-video generative AI model, including its background, applications, challenges, and future directions.

Feb, 2024

AutoHall: 大型语言模型的自动幻觉数据集生成

该论文提出了 AutoHall 方法，通过自相矛盾的方式自动构建模型特定的幻觉数据集，然后基于这些数据集实现了无资源和黑盒幻觉检测方法，对开源和闭源大型语言模型进行了实验证明，在幻觉检测性能上优于现有基准模型，并且发现了不同模型之间的幻觉比例和类型的差异。

Sep, 2023

Luna: 评估基础模型以高准确度和低成本捕捉语言模型幻觉

Luna 是一个针对 Retriever Augmented Generation 的幻觉检测的 DeBERTA-large（440M）编码器，通过在各个行业领域中的轻量级建模和广义化的多领域数据上的优良表现，实现了较低的成本和延迟以及优于 GPT-3.5 和商业评估框架的 97% 和 96% 的幻觉检测准确度。

Jun, 2024

卡通幻觉检测：姿势感知上下文视觉学习

使用大规模文本到图像模型生成训练数据在各种生成领域已经成为一种常见方法；然而，特别是在卡通角色等非逼真风格中，仍然存在感知上的关键缺陷的视觉幻觉问题；我们提出了一种针对由文本到图像模型生成的卡通角色图像的新型视觉幻觉检测系统；我们的方法利用了使用 RGB 图像和姿势信息的姿势感知上下文视觉学习（PA-ICVL）和视觉语言模型（VLMs），通过引入来自微调的姿势估计的姿势指导，使得 VLMs 能够做出更准确的决策；实验结果表明，与仅依赖于 RGB 图像的基准方法相比，我们在识别视觉幻觉方面取得了显著的改进；本研究通过减轻视觉幻觉问题，推动了文本到图像模型的发展，扩大了其在非逼真领域的潜力。

Mar, 2024

小型代理也能出色！强化小型语言模型作为幻觉检测器

通过使用较小型的语言模型以及多功能工具箱，设计了一个细粒度的三阶段检测框架，结合记忆机制，实现了 HalullAgent，使其能够主动选择适合的工具来检测多种幻觉类型，包括文本、代码和数学表达式，并利用中英文数据集进行合成检测轨迹以实现双语幻觉检测。大量实验证明，仅使用 2K 样本进行调优，HaluAgent 可以在各种任务和数据集上执行幻觉检测，在领域内和领域外数据集上实现与甚至超过 GPT-4 的性能而无需工具增强。

Jun, 2024

检测条件神经序列生成中产生的虚假内容

本文介绍了一种使用预训练模型和人工标注数据来检测神经序列模型输出中的虚构内容，并在机器翻译和摘要生成等任务中获得显著效果的方法。

Nov, 2020