BriefGPT.xyz
Ask
alpha
关键词
policy-iteration
搜索结果 - 1
ICLR
现场策略迭代
本文提出了一种名为 ICPI 的算法,它使用基础模型在上下文中执行强化学习任务,通过试错交互更新提示内容,以实现无需专家示范或梯度的强化学习任务。
PDF
2 years ago
Prev
Next