SafeSora: 通过人类偏好数据集实现文本到视频生成的安全对齐

Jun, 2024

SafeSora: 通过人类偏好数据集实现文本到视频生成的安全对齐

SafeSora: Towards Safety Alignment of Text2Video Generation via a Human Preference Dataset

Josef Dai, Tianle Chen, Xuyao Wang, Ziran Yang, Taiye Chen...

TL;DR为了减轻大规模视觉模型（LVMs）带来的有害输出的风险，我们引入了 SafeSora 数据集，促进文本到视频生成与人类价值观的对齐研究。该数据集包括帮助性和无害性两个主要维度上的人类偏好，并进一步细分为 4 个子维度和 12 个子类别。通过多个应用，我们展示了 SafeSora 数据集的实用性，例如培训文本 - 视频审查模型、通过对齐算法的微调来与人类偏好相对齐的 LVMs 等。这些应用突显了 SafeSora 数据集在文本到视频对齐研究中的潜力，例如人类偏好建模和对齐算法的开发与验证。

Abstract

To mitigate the risk of harmful outputs from large vision models (lvms), we introduce the safesora dataset to promote research on aligning text-to-video generation with human values. This dataset encompasses

safesora dataset text-to-video generation human preferences alignment algorithms lvms

发现论文，激发创造

SPA-VL：用于视觉语言模型的全面安全偏好对齐数据集

提出了一种名为 SPA-VL 的视觉语言模型安全偏好对齐数据集，通过在此数据集上使用对齐技术进行训练，可以显著提高模型在无害性和有益性方面的表现，同时保持其核心能力。

Jun, 2024

PKU-SafeRLHF: Llama 家族模型的安全对齐偏好数据集

本文介绍了 PKU-SafeRLHF 数据集，旨在促进大型语言模型（LLMs）中的安全任务对齐研究。数据集包含 44.6k 个精细设定的提示和 265k 个问题 - 答案对，涵盖了 19 个伤害类别和从轻微到严重的三个严重程度级别，答案由 Llama 家族模型生成。利用大规模标注数据，我们进一步训练了对 LLMs 的风险控制的严重程度敏感的算法以及对 LLMs 的安全任务对齐的安全中心 RLHF 算法。我们相信这个数据集将成为社区宝贵的资源，有助于 LLMs 的安全部署。

Jun, 2024

SafetyPrompts: 评估和改进大型语言模型安全性的开放数据集的系统综述

系统回顾了用于评估和改进大型语言模型安全性的开放数据集，研究了 102 个数据集，并发现了可用数据集的使用模式和趋势，以及数据集覆盖的缺口和目前评估实践的局限性。

Apr, 2024

改善 LLM 的安全对齐：基于人类偏好数据的探索

介绍了 BeaverTails 数据集，用于促进大型语言模型（LLMs）中的安全一致性研究。该数据集独特地区分了有关问答对的有用性和无害性的注释，因此可以从不同的角度对这些关键属性进行分析。总共编制了 30,207 个问答对的安全元标签，并收集了 30,144 个专家比较数据，包括有用性和无害性度量。此外，还展示了 BeaverTails 在内容过滤和带有人类反馈的强化学习方面的应用，并强调了其在 LLMs 中实施实际安全措施的潜力。我们相信该数据集为社区提供了重要资源，为 LLMs 的安全发展和部署做出了贡献。

Jul, 2023

视觉语言模型的安全对齐

通过在两阶段训练过程中添加安全模块，包括安全投影仪、安全标记和安全头，我们提高了现有视觉语言模型的视觉安全对齐，有效提高了模型对危险图像的防御。

May, 2024

注释对齐：比较 LLM 和人工注释的对话安全性

在研究中，我们通过对标注的一致性来探讨 LLMs 与人类安全感知的程度。我们利用最近的 DICES 数据集，在该数据集中，350 个对话被 10 个人种 - 性别群体的 112 名标注者进行了安全性评级。GPT-4 与平均标注者评级的皮尔逊相关系数达到 0.59，高于标注者之间的平均相关系数（0.51）。通过更大的数据集，我们表明需要进一步判断 GPT-4 在与不同人群之间的相关性上是否存在差异。此外，组内存在相当大的相关性个体差异，表明种族和性别不能完全捕捉到协作差异。最后，我们发现 GPT-4 无法预测某个人群比另一个人群认为对话更不安全的情况。

Jun, 2024

基于 SSP 的简化且安全的自动提示工程方法用于 LVM 上逼真图像合成

通过将特定的相机描述附加到提示中，我们提出了一种简单而安全的提示工程方法 (SSP)，通过提供最佳相机描述来改进图像生成质量。实验证明，SSP 相比其他方法提高了平均 16% 的语义一致性和 48.9% 的安全性指标。

Jan, 2024

Safer-Instruct: 与自动偏好数据对齐的语言模型

Safer-Instruct 是一种半自动构建大规模偏好数据集的新型流程，利用反向指令调整、指令归纳和专家模型评估，高效生成高质量的偏好数据，改善模型安全性并在会话和下游任务上保持竞争性能。

Nov, 2023

Sora 检测器：针对大型文字视频模型的统一幻想检测

为了解决文本到视频（T2V）生成模型中的幻觉问题，本研究引入了一种名为 SoraDetector 的新型统一框架，通过对幻觉现象的综合分析和关键帧提取技术，利用多模式大型语言模型构建静态和动态知识图，在单帧和多帧中检测幻觉，并通过自动化工具生成完整的视频质量报告。同时，还开发了一个用于评估 T2V 幻觉检测进展的元评估基准 T2VHaluBench，并通过在 Sora 和其他大型 T2V 模型生成的视频上进行广泛实验，证明了我们的方法在准确检测幻觉方面的有效性。

May, 2024

VidProM：用于文本到视频扩散模型的百万级实时提示展示数据集

Sora 带来了文本到视频扩散模型的新时代，它在视频生成和潜在应用方面取得了重大进展；本文介绍了 VidProM，这是第一个由真实用户提供的包含 167 万个文本到视频提示的大规模数据集，并探讨了与之相关的研究领域和新的研究方向。

Mar, 2024