preference dataset | BriefGPT

关键词preference dataset

搜索结果 - 6

迭代纳什策略优化：通过无悔学习使 LLMs 与一般偏好相一致
本文以游戏理论的角度，探讨了一种基于人类偏好与强化学习的算法，通过采用无懊悔学习，自我对抗的方式逼近纳什平衡策略，从而解决了大规模语言模型对人类反馈的规模性计算问题。实验证明该算法相较于之前的方法在不考虑个体响应的预期胜率的情况下能够取得更
PDF6 days ago
传奇：利用表征工程为偏好数据集标注安全边界
我们提出了一种有效且高效的框架来推动边界增强的偏好数据集的发展，通过利用语义距离对配对响应沿着安全方向进行自动标注，并在奖励建模和安全对齐方面进行了实验验证。
PDF24 days ago
通过系统消息概括与数千个偏好进行对齐
用户指定系统信息并通过训练大型语言模型与用户意图更好地对齐的新方法，通过多方面的数据集和用户指令训练模型，该模型在各项测试中表现优于其他大型语言模型。
PDFa month ago
多模态大语言模型是文本到图像生成的人类对齐标注器
通过利用多模态大型语言模型创建 VisionPrefer，我们构建了一个高质量和细粒度的用户偏好数据集，用于指导文本到图像生成模型的训练，该数据集在多个偏好方面捕捉了人类的喜好，并且其性能优于之前的人类偏好度量标准，并证明了将人工智能生成的
PDF2 months ago
Tango 2：通过直接偏好优化对齐基于扩散的文本到音频生成
研究使用 diffusion-DPO（直接偏好优化）损失在偏好数据集上对 Tango 文本到音频模型进行微调，以改进音频生成性能，并且在自动和手动评估指标上显示出优于 Tango 和 AudioLDM2 的效果。
PDF3 months ago
超级反馈：通过高质量反馈提升语言模型
通过创建大规模、高质量、多样化的偏好数据集 ULTRAFEEDBACK，我们训练各种模型来展示其有效性，并在多个基准测试中取得最佳表现。
PDF9 months ago