BriefGPT.xyz
Ask
alpha
关键词
rlhf process
搜索结果 - 1
RewardBench:评估语言建模的奖励模型
RewardBench 是一个用于评估奖励模型的基准数据集和代码库,旨在增强对奖励模型科学理解的同时,深入了解用于语言模型对齐的不透明技术以及其中嵌入的价值观。通过包含多个难度级别、结构化和分布外查询的提示 - 赢 - 输三元组,我们对通过
→
PDF
4 months ago
Prev
Next