BriefGPT.xyz
Ask
alpha
关键词
chain of hindsight
搜索结果 - 2
ICML
后见之链中崛起的代理变形机
本文利用 “chain of hindsight” 方法在强化学习中训练了一个能够直接综合多个轨迹信息的 transformer 模型,并通过在 D4RL 和 ExoRL 基准测试中的表现证明了它的竞争力和可伸缩性。
PDF
a year ago
回顾之链:通过反馈让语言模型进行校准
通过 Chain of Hindsight 技术,可以用各种形式的反馈来 fine-tuning 语言模型,从而使得它们可以更好地满足人类的偏好,具有更好的性能。
PDF
a year ago
Prev
Next