human preference | BriefGPT

关键词human preference

搜索结果 - 8

COLING人工对齐中的语言模型微调中的数据多样性扩展
通过控制文本样本数量，本研究发现更多回复但更少提示比大量的提示更能触发语言模型与人类一致，此外，提出了提示多样性的新公式，并使用数据增强进行了实验证明其对不同算法的效果。
PDF4 months ago
无偏好的对齐学习与正则化相关回报
学习人类偏好被认为是将大型语言模型与人类价值观保持一致的关键，然而，与普遍看法相反，我们的初步研究发现，在人类偏好数据集训练的奖励模型倾向于给长期离题的回复比给短期主题相关的回复更高的分数。受此观察的启发，我们探索了一种无偏好的方法，利用
PDF5 months ago
BATON：用人类偏好反馈对齐文本到音频模型
使用人类偏好反馈，通过 BATON 框架增强生成音频与文本提示之间的对齐，从而显著提高原始文本到音频模型的生成质量。
PDF5 months ago
超越模仿：利用细粒度质量信号进行对齐
我们提出了一种名为 FIGA 的改进对齐方法，通过利用细粒度的质量信号，即对比好坏回答的方式，指导大型语言模型的对齐学习。实验证明了我们的方法的有效性。
PDF8 months ago
STRAPPER: 基于偏好的自我训练强化学习方法及同伴正则化
通过引入对等正则化的自训练方法，克服了偏好强化学习中的相似陷阱问题，并以不同的半监督替代方法和对等正则化学习了多种运动和机器人操作行为。
PDFa year ago
ImageReward: 学习和评估人类对文本到图像生成的偏好
本文介绍了 ImageReward，第一个通用的文本到图像人类偏好奖励模型，通过系统注释流程，其训练基于涵盖评级和排名组件的数据集，包括 137k 个专家比较。在人类评估中，ImageReward 超越了现有的评分方法（例如 CLIP），成
PDFa year ago
EMNLPStoryER：通过排序、评分和推理进行自动故事评估
提出了一种新的故事评估方法 StoryER，包括排序、评分和评论等三个子任务，此方法不仅考虑故事的词汇一致性，还结合了人类偏好进行评估，其基于的公开数据集与经过微调的 Longformer-Encoder-Decoder，通过在每个任务上产
PDF2 years ago
人类学习奖励函数的偏好模型
通过基于遗憾而非局部回报的人类偏好模型，可以更好地学习与人类利益相符的奖励函数，从而实现政策的对齐。
PDF2 years ago