BriefGPT.xyz
Ask
alpha
关键词
sequence likelihood calibration
搜索结果 - 5
大型语言模型的人类对齐通过在线偏好优化
确保语言模型输出与人类偏好的一致性对于保证用户的有用、安全和愉快的体验至关重要。本文中,我们展示了两种最近对齐方法:Identity Policy Optimisation (IPO) 和 Nash Mirror Descent (Nash
→
PDF
4 months ago
BRAIn: 基于贝叶斯奖励条件化摊销推理的自然语言生成
基于 Proximal Policy Optimization(PPO)的成功,提出了离线性质的 Sequence Likelihood Calibration(SLiC)和 Direct Policy Optimization(DPO)等
→
PDF
5 months ago
统计拒绝抽样改进偏好优化
通过引入一种称为统计拒绝采样优化 (RSO) 的新方法,我们能更准确地从目标最优策略中获取偏好数据,并提出了一个统一框架,从偏好建模的角度增强了 SLiC 和 DPO 中所使用的损失函数。通过在三个不同任务上进行广泛的实验,我们证明了 RS
→
PDF
10 months ago
SLiC-HF: 序列似然校准与人类反馈
本文介绍了如何使用 Sequence Likelihood Calibration(SLiC)从人类反馈中有效地学习,并证明了这种方法在人类评估实验中可以极大地提高监督微调基线和 PPO RLHF 的竞争力。同时,与过去的工作相比,使用 S
→
PDF
a year ago
校准序列似然改进条件语言生成
本文介绍了序列可能性校准(SLiC)的方法,在序列生成过程中较大束搜索大小时生成质量会下降,通过使用 SLiC 可以不用启用启发式方法,从而显著提高候选解的生成质量。与传统的 MLE 模型相比,我们在许多生成任务中都获得了更好的结果。
PDF
2 years ago
Prev
Next