BriefGPT.xyz
Ask
alpha
关键词
rl prompts
搜索结果 - 1
具备偏好排名的 Prompt-Tuning 决策 Transformer
本文提出了 Prompt-Tuning DT 算法,使用轨迹段作为提示来指导强化学习(RL)代理获取环境信息并通过黑盒调整来优化提示,以提供更多相关信息和指导代理走向特定任务的方向,在低数据情况下仅学习 0.03%的参数即可实现与全模型微调
→
PDF
a year ago
Prev
Next