HelpSteer2: 用于训练最佳奖励模型的开源数据集

Jun, 2024

HelpSteer2: 用于训练最佳奖励模型的开源数据集

HelpSteer2: Open-source dataset for training top-performing reward models

Zhilin Wang, Yi Dong, Olivier Delalleau, Jiaqi Zeng, Gerald Shen...

TL;DR通过使用 HelpSteer2 进行训练，我们提出了 SteerLM 2.0 模型对齐方法，能够有效利用我们的奖励模型预测的多属性分数，从而在对齐大型语言模型方面取得了 92.0% 的最新成果。

Abstract

High-quality preference datasets are essential for training reward models that can effectively guide large language models (LLMs) in gener

preference datasets reward models large language models helpsteer2 model alignment

发现论文，激发创造

HelpSteer: StreamLM 的多属性有益数据集

通过使用 HelpSteer 数据集和 SteerLM 技术训练 Llama 2 70B 模型，我们在 MT Bench 上获得了 7.54 的分数，这是目前不需要更强大模型（如 GPT4）的训练数据的开放模型得分最高的。

Nov, 2023

SteerLM: 属性调节的 SFT 作为 (用户可操控的) 替代 RLHF

为了解决强化学习从人类反馈中采集隐式价值观的困难，本研究提出了一种名为 SteerLM 的监督微调方法，使最终用户能够在推理过程中控制生成的回复，从而生成有帮助且高质量的回复，同时保持可定制性。

Oct, 2023

Hummer: 朝着有限竞争偏好数据集的方向

引入了一种新的统计度量指标，即 Alignment Dimension Conflict，用于量化偏好数据集内部的冲突程度。提出了 Hummer 和 Hummer-F 这两个创新的成对偏好数据集，并开发了 HummerRM 和 HummerRM-F 这两个奖励模型，有效平衡多样的对齐目标，适用于领域特定的进一步微调和减少攻击的弱点。

May, 2024

引导语言生成：利用对比专家指导和负面提示进行连贯多样的合成数据生成

通过对比专家指导和利用现有真实和合成示例实施对抗，STEER 通过嵌入重新定位来解决一致性和多样性问题，从而在生成合成数据时取得了更好的平衡。

Aug, 2023

OpenAssistant Conversations -- 大型语言模型对齐的民主化

研究大规模语言模型的发布与使用，利用调整技术进行优化以改善使用性，此文介绍 OpenAssistant Conversations 数据库的发布，使用该人类生成的、人类注释的数据集进行训练后得到了全新的软件 OpenAssistant。相对于 ChatGPT，OpenAssistant 的答复被用户更青睐，其发布的代码和数据完全遵循宽松许可证，可供研究者使用。

Apr, 2023

超级反馈：通过高质量反馈提升语言模型

通过创建大规模、高质量、多样化的偏好数据集 ULTRAFEEDBACK，我们训练各种模型来展示其有效性，并在多个基准测试中取得最佳表现。

Oct, 2023

STEER: 基于专家强化学习的统一风格转移

STEER 是一个统一的框架，通过专家增强（Expert Reinforcement）实现样式转移，用于解决样式转移中有限并行数据的挑战。该方法在多个目标样式中能够从任意未知源样式进行转移，具有灵活和高效的特性，取得了具有竞争力的基准线之上的最先进结果。

Nov, 2023

用自动生成的偏好数据对齐大型语言模型

通过自动生成的优先数据 (Selfie) 和少量的人工标注优先数据，我们提出了一种新的框架，可以显著增强大型语言模型的对齐性能，进一步提取模型的内在偏好。

Jun, 2024

STEER: 语义转向扩展识别对话助理

在语音助手系统中，steering 是指用户发出后续指令以引导或澄清上一轮对话的现象。我们提出了一种名为 STEER 的 steering 检测模型，能够预测后续指令是否是用户试图引导上一个指令的意图。我们通过开发启发式规则来构建训练数据集，以应对 steering 用例的冷启动问题，并且在我们的采样数据上取得了超过 95% 的准确率。此外，我们引入了 STEER+，它在用户转录的基础上利用语义解析树来提供更多上下文信息，特别是对于通常出现在句子边界的命名实体等生词。我们还展示了一项数据分析，突出了语音助手支持 steering 用例时用户体验的改善。

Oct, 2023

改进奖励建模的西至 N: 合成优先性生成

我们提出一种改进奖励模型质量的新方法，通过生成合成偏好数据，以使训练数据集增加基于策略且高质量的偏好对。经验证明，该方法可以改善任何奖励模型的性能，效果与添加相似数量的人类偏好数据相当。这项工作为改进语言模型对齐的强化学习的成功开辟了新的研究领域，提供了合成偏好生成作为解决奖励模型建模挑战的方案。

Jan, 2024