HelpSteer: StreamLM 的多属性有益数据集

Nov, 2023

HelpSteer: StreamLM 的多属性有益数据集

HelpSteer: Multi-attribute Helpfulness Dataset for SteerLM

Zhilin Wang, Yi Dong, Jiaqi Zeng, Virginia Adams, Makesh Narsimhan Sreedhar...

TL;DR通过使用 HelpSteer 数据集和 SteerLM 技术训练 Llama 2 70B 模型，我们在 MT Bench 上获得了 7.54 的分数，这是目前不需要更强大模型（如 GPT4）的训练数据的开放模型得分最高的。

Abstract

Existing open-source helpfulness preference datasets do not specify what makes some responses more helpful and others less so. Models trained on these datasets can incidentally learn to model dataset artifacts (e.g. preferring longer but unhelpful responses only due to their length). T

open-source helpfulness preference datasets helpsteer annotations llama 2 70b steerlm technique

发现论文，激发创造

HelpSteer2: 用于训练最佳奖励模型的开源数据集

通过使用 HelpSteer2 进行训练，我们提出了 SteerLM 2.0 模型对齐方法，能够有效利用我们的奖励模型预测的多属性分数，从而在对齐大型语言模型方面取得了 92.0% 的最新成果。

Jun, 2024

SteerLM: 属性调节的 SFT 作为 (用户可操控的) 替代 RLHF

为了解决强化学习从人类反馈中采集隐式价值观的困难，本研究提出了一种名为 SteerLM 的监督微调方法，使最终用户能够在推理过程中控制生成的回复，从而生成有帮助且高质量的回复，同时保持可定制性。

Oct, 2023

引导语言生成：利用对比专家指导和负面提示进行连贯多样的合成数据生成

通过对比专家指导和利用现有真实和合成示例实施对抗，STEER 通过嵌入重新定位来解决一致性和多样性问题，从而在生成合成数据时取得了更好的平衡。

Aug, 2023

PKU-SafeRLHF: Llama 家族模型的安全对齐偏好数据集

本文介绍了 PKU-SafeRLHF 数据集，旨在促进大型语言模型（LLMs）中的安全任务对齐研究。数据集包含 44.6k 个精细设定的提示和 265k 个问题 - 答案对，涵盖了 19 个伤害类别和从轻微到严重的三个严重程度级别，答案由 Llama 家族模型生成。利用大规模标注数据，我们进一步训练了对 LLMs 的风险控制的严重程度敏感的算法以及对 LLMs 的安全任务对齐的安全中心 RLHF 算法。我们相信这个数据集将成为社区宝贵的资源，有助于 LLMs 的安全部署。

Jun, 2024

改善 LLM 的安全对齐：基于人类偏好数据的探索

介绍了 BeaverTails 数据集，用于促进大型语言模型（LLMs）中的安全一致性研究。该数据集独特地区分了有关问答对的有用性和无害性的注释，因此可以从不同的角度对这些关键属性进行分析。总共编制了 30,207 个问答对的安全元标签，并收集了 30,144 个专家比较数据，包括有用性和无害性度量。此外，还展示了 BeaverTails 在内容过滤和带有人类反馈的强化学习方面的应用，并强调了其在 LLMs 中实施实际安全措施的潜力。我们相信该数据集为社区提供了重要资源，为 LLMs 的安全发展和部署做出了贡献。

Jul, 2023

STEER: 语义转向扩展识别对话助理

在语音助手系统中，steering 是指用户发出后续指令以引导或澄清上一轮对话的现象。我们提出了一种名为 STEER 的 steering 检测模型，能够预测后续指令是否是用户试图引导上一个指令的意图。我们通过开发启发式规则来构建训练数据集，以应对 steering 用例的冷启动问题，并且在我们的采样数据上取得了超过 95% 的准确率。此外，我们引入了 STEER+，它在用户转录的基础上利用语义解析树来提供更多上下文信息，特别是对于通常出现在句子边界的命名实体等生词。我们还展示了一项数据分析，突出了语音助手支持 steering 用例时用户体验的改善。

Oct, 2023

Hummer: 朝着有限竞争偏好数据集的方向

引入了一种新的统计度量指标，即 Alignment Dimension Conflict，用于量化偏好数据集内部的冲突程度。提出了 Hummer 和 Hummer-F 这两个创新的成对偏好数据集，并开发了 HummerRM 和 HummerRM-F 这两个奖励模型，有效平衡多样的对齐目标，适用于领域特定的进一步微调和减少攻击的弱点。

May, 2024

构建抗干扰多轮响应选择模型的评估数据集和策略

本研究分析了开放域韩语多次对话响应选择模型的弱点，并发布了对抗性数据集以评估这些弱点。我们还提出了在这种对抗环境中构建强大模型的策略。

Sep, 2021

ACORN: 方面级常识推理解释评估

评估自由文本解释是一个多方面、主观、费时的任务。大型语言模型呈现出一种吸引人的替代方案，因为它们具有一致性、可扩展性和成本效益方面的潜力。在这项工作中，我们提出了 ACORN 数据集，其中包含 3,500 个自由文本解释和按方面的质量评分，并利用该数据集来了解语言模型如何评估解释。我们观察到，有时替换人工评分会维持，但更常见的是降低不同设置和质量方面之间的评分一致性，这表明它们的判断并不总是与人工评定者一致。我们进一步通过比较不同质量方面上 LLM 生成的评分与大多数人工评分之间的相关性来量化这种差异。在最佳系统中，Spearman 等级相关性在不同方面之间的范围为 0.53 到 0.95，平均为 0.72，表示有着中等高度但不完全一致的相关。最后，我们考虑了在人工评定者有限的情况下，使用 LLM 作为额外的评定者的替代方案，并测量了多数人工标签与有限人工队列和 LLM 作为额外评定者之间的相关性，与原始金标签进行比较。当只有两个人工评定者时，GPT-4 改善了结果，在所有其他观察到的情况中，在有三个或更多人工评定者时，LLMs 对结果中立或有害。我们公开发布此数据集以支持未来 LLM 在环评估的改进。

May, 2024

GenderAlign：用于减弱大型语言模型中性别偏差的对齐数据集

通过开发名为 GenderAlign 的数据集，本研究旨在减少大型语言模型中多个维度的性别偏见，并将性别偏见分类为 4 个主要类别。实验证明 GenderAlign 在减轻大型语言模型的性别偏见方面具有显著效果。

Jun, 2024