BriefGPT.xyz
Ask
alpha
关键词
rl methods
搜索结果 - 2
增值取样用于语言模型对齐和个性化
通过价值增强抽样(VAS)的奖励优化框架,不需要共同训练策略和值函数的情况下,最大化不同奖励函数,相较于现有基线模型,在标准基准测试中不仅优于 PPO 和 DPO,而且与 Best-of-128 相比具有更低的推理成本,从而实现了优化的稳定
→
PDF
2 months ago
ICLR
参数空间噪声用于探索
通过将参数噪声与传统深度强化学习方法相结合,可以在高维离散行动环境和连续控制任务中比传统深度强化学习方法和进化策略更有效地学习,并且在离散和连续领域中参数噪声会比动作空间噪声更优秀。
PDF
7 years ago
Prev
Next