BriefGPT.xyz
Ask
alpha
关键词
complex constraints
搜索结果 - 2
Conifer: 提高大型语言模型复杂约束指令遵循能力
通过引入名为 Conifer 的新型指令调整数据集,以及采用渐进学习方案和学习过程反馈,我们提高了大型语言模型(LLMs)在遵循具有复杂约束的多级指令方面的能力,并在几个指令遵循基准测试中,实现了与现有 7B 模型相比的显著改进,甚至在某些
→
PDF
4 months ago
使用硬约束进行连续控制的简化策略优化
近期有关约束强化学习的研究进展为强化学习提供了一定的安全性保证。本文介绍了一种将 RL 与 GRG 相结合的减少策略优化算法 (RPO),用于处理存在非凸硬约束条件的连续控制任务。通过将动作分为基本动作和非基本动作,RPO 算法采用了 GR
→
PDF
9 months ago
Prev
Next