BriefGPT.xyz
大模型
Ask
alpha
关键词
rl from human feedback
搜索结果 - 2
基于原则的惩罚方法在双层强化学习和 RLHF 中的应用
通过惩罚的形式引入首个系统的算法框架,解决了新的双层强化学习问题,包括激励设计、逆向强化学习和人类反馈强化学习,通过在 Stackelberg Markov 游戏、人类反馈强化学习和激励设计中的模拟验证了算法的有效性。
PDF
5 months ago
使用模型编写的评价方法发现语言模型行为
本文研究了不同规模的语言模型的行为表现,并提出一种使用语言模型自动生成评估的方法,并发现了一些逆比例缩放情况下的新现象,例如:更大的语言模型表现为对资源获取和目标保持更浓厚的兴趣,并且此类的逆比例缩放(Inverse scaling)情况在
→
PDF
2 years ago
Prev
Next