BriefGPT.xyz
Ask
alpha
关键词
policy models
搜索结果 - 3
奖励和策略模型在强化学习中的无缝衔接探讨
借助强化学习从人类反馈中进行训练,通过训练策略模型和奖励模型来使语言模型与人类偏好相一致;我们提出了研究对策略模型和奖励模型之间的交互作用进行微调的无缝度概念,探索了其对性能的影响,并引入了自动度量标准 SEAM 来度量两者之间的无缝度。实
→
PDF
24 days ago
MetaAligner: 通用多目标语言模型对齐的条件弱到强校正
大型语言模型最新的研究进展着重于通过多目标偏好对齐来解决异质人类期望和价值的问题。然而,现有方法对策略模型具有参数黏着性,导致两个主要限制:(1)对每个新的目标模型,其对齐算法的高成本重复使用;(2)它们不能扩展到未知的目标,因为其静态对齐
→
PDF
3 months ago
可解释化多智能体强化学习的概念学习
本文介绍了一种将领域专家的可解释概念纳入到多智能体强化学习模型中的方法,以提高模型的解释性和稳定性,提高性能和样本效率。
PDF
a year ago
Prev
Next