BriefGPT.xyz
Ask
alpha
关键词
zero-shot adaptation capability
搜索结果 - 1
离线安全强化学习的约束决策 Transformer
该论文研究了如何从离线数据集中学习到一个安全政策,提出了一种多目标优化的方法,并通过 “ε- 可减” 向量量化了问题难度,发现在安全性和任务性能之间存在平衡,于是提出了一种 “受限决策 Transformer” 方法并进行了实验,结果表明我
→
PDF
a year ago
Prev
Next