May, 2023

具备偏好排名的 Prompt-Tuning 决策 Transformer

TL;DR本文提出了 Prompt-Tuning DT 算法,使用轨迹段作为提示来指导强化学习(RL)代理获取环境信息并通过黑盒调整来优化提示,以提供更多相关信息和指导代理走向特定任务的方向,在低数据情况下仅学习 0.03%的参数即可实现与全模型微调相当甚至更好的性能,为 RL 中优化大型代理的特定任务提供了有前途的方向。