preference models | BriefGPT

关键词preference models

搜索结果 - 7

多目标强化学习从 AI 反馈
多目标强化学习（MORLAIF）通过使用 AI 反馈强化学习来改善语言模型的对齐和性能，将这一任务分解为多个简单的原则，如毒性、客观性和谄媚，并使用 GPT-3.5-Turbo 的反馈进行各原则的偏好模型训练，然后利用不同的标量化函数将这些
PDF23 days ago
RLHF 工作流程：从奖励建模到在线强化学习
我们介绍了在线迭代强化学习（RLHF）的工作流程，通过构建偏好模型和使用监督微调和迭代 RLHF，我们在大规模语言模型方面取得了令人印象深刻的性能，通过详细的实现指南，我们提供了一种易于复现的在线迭代 RLHF 方法。
PDF2 months ago
人类反馈的最佳设计
从人类反馈中学习偏好模型一直是人工智能领域最近进展的核心。本研究通过推广最优设计的概念，研究了用于学习偏好模型的数据收集问题，并提出了面向排名列表的有效算法，证明了模型估计器随更多数据而改善，估计器下的排名误差也随之减少，并在多个合成和真实
PDF2 months ago
用于对齐语言模型的组合偏好模型
我们提出了一种新的偏好模型框架，即组合偏好模型（CPMs），它可以将一个全局偏好评估分解为多个可解释的特征，从提示的语言模型中获得这些特征的标量分数，并使用逻辑回归分类器聚合这些分数，实验证明，CPMs 不仅提高了泛化性能，并且对过度最优化
PDF9 months ago
ICML通过随机可达性量化推荐系统中的可用性和发现性
本文探讨了交互式推荐系统中偏好模型如何影响内容可用性和用户的发现机会，并以基于随机可达性的评估过程为基础提出了一种量化推荐目标内容到达用户的概率上限的方法。该指标能够有效检测内容可用性的偏见，诊断用户发现机会的限制，展示出选择规则和用户干预
PDF3 years ago
WSDM用户生成商品列表延续的一致性感知推荐
该论文提出了一种通用的方法来延续用户生成的项目列表，通过人类编目模式建模项目列表的一致性，进而利用一种新颖的一致性感知门控网络 (Intelligently combining two preference models) 来智能地组合两个
PDF5 years ago
利用示例批判和建议进行基于偏好的搜索
本文探讨了交互式工具＂例子批判＂来帮助用户在大量选项中快速找到最合适的物品，并介绍了通过基于用户当前的喜好模型和潜在的隐藏喜好来计算建议来改善该技术的新技术。用合成和真实用户进行性能评估，结果表明，这些建议对用户非常吸引人，可以刺激他们表达
PDF13 years ago