HelpSteer: StreamLM 的多属性有益数据集
通过使用 HelpSteer2 进行训练,我们提出了 SteerLM 2.0 模型对齐方法,能够有效利用我们的奖励模型预测的多属性分数,从而在对齐大型语言模型方面取得了 92.0% 的最新成果。
Jun, 2024
为了解决强化学习从人类反馈中采集隐式价值观的困难,本研究提出了一种名为 SteerLM 的监督微调方法,使最终用户能够在推理过程中控制生成的回复,从而生成有帮助且高质量的回复,同时保持可定制性。
Oct, 2023
通过对比专家指导和利用现有真实和合成示例实施对抗,STEER 通过嵌入重新定位来解决一致性和多样性问题,从而在生成合成数据时取得了更好的平衡。
Aug, 2023
本文介绍了 PKU-SafeRLHF 数据集,旨在促进大型语言模型(LLMs)中的安全任务对齐研究。数据集包含 44.6k 个精细设定的提示和 265k 个问题 - 答案对,涵盖了 19 个伤害类别和从轻微到严重的三个严重程度级别,答案由 Llama 家族模型生成。利用大规模标注数据,我们进一步训练了对 LLMs 的风险控制的严重程度敏感的算法以及对 LLMs 的安全任务对齐的安全中心 RLHF 算法。我们相信这个数据集将成为社区宝贵的资源,有助于 LLMs 的安全部署。
Jun, 2024
介绍了 BeaverTails 数据集,用于促进大型语言模型(LLMs)中的安全一致性研究。该数据集独特地区分了有关问答对的有用性和无害性的注释,因此可以从不同的角度对这些关键属性进行分析。总共编制了 30,207 个问答对的安全元标签,并收集了 30,144 个专家比较数据,包括有用性和无害性度量。此外,还展示了 BeaverTails 在内容过滤和带有人类反馈的强化学习方面的应用,并强调了其在 LLMs 中实施实际安全措施的潜力。我们相信该数据集为社区提供了重要资源,为 LLMs 的安全发展和部署做出了贡献。
Jul, 2023
在语音助手系统中,steering 是指用户发出后续指令以引导或澄清上一轮对话的现象。我们提出了一种名为 STEER 的 steering 检测模型,能够预测后续指令是否是用户试图引导上一个指令的意图。我们通过开发启发式规则来构建训练数据集,以应对 steering 用例的冷启动问题,并且在我们的采样数据上取得了超过 95% 的准确率。此外,我们引入了 STEER+,它在用户转录的基础上利用语义解析树来提供更多上下文信息,特别是对于通常出现在句子边界的命名实体等生词。我们还展示了一项数据分析,突出了语音助手支持 steering 用例时用户体验的改善。
Oct, 2023
引入了一种新的统计度量指标,即 Alignment Dimension Conflict,用于量化偏好数据集内部的冲突程度。提出了 Hummer 和 Hummer-F 这两个创新的成对偏好数据集,并开发了 HummerRM 和 HummerRM-F 这两个奖励模型,有效平衡多样的对齐目标,适用于领域特定的进一步微调和减少攻击的弱点。
May, 2024
评估自由文本解释是一个多方面、主观、费时的任务。大型语言模型呈现出一种吸引人的替代方案,因为它们具有一致性、可扩展性和成本效益方面的潜力。在这项工作中,我们提出了 ACORN 数据集,其中包含 3,500 个自由文本解释和按方面的质量评分,并利用该数据集来了解语言模型如何评估解释。我们观察到,有时替换人工评分会维持,但更常见的是降低不同设置和质量方面之间的评分一致性,这表明它们的判断并不总是与人工评定者一致。我们进一步通过比较不同质量方面上 LLM 生成的评分与大多数人工评分之间的相关性来量化这种差异。在最佳系统中,Spearman 等级相关性在不同方面之间的范围为 0.53 到 0.95,平均为 0.72,表示有着中等高度但不完全一致的相关。最后,我们考虑了在人工评定者有限的情况下,使用 LLM 作为额外的评定者的替代方案,并测量了多数人工标签与有限人工队列和 LLM 作为额外评定者之间的相关性,与原始金标签进行比较。当只有两个人工评定者时,GPT-4 改善了结果,在所有其他观察到的情况中,在有三个或更多人工评定者时,LLMs 对结果中立或有害。我们公开发布此数据集以支持未来 LLM 在环评估的改进。
May, 2024
通过开发名为 GenderAlign 的数据集,本研究旨在减少大型语言模型中多个维度的性别偏见,并将性别偏见分类为 4 个主要类别。实验证明 GenderAlign 在减轻大型语言模型的性别偏见方面具有显著效果。
Jun, 2024