BriefGPT.xyz
Ask
alpha
关键词
pretrained decision transformers
搜索结果 - 1
使用奖励预测预训练决策 Transformer 进行上下文多任务结构化赌博学习
本文研究多任务结构化赌博问题,目标是学习一个接近最优的算法以最小化累计遗憾。我们使用 Transformer 作为决策算法来学习该共享结构以便泛化到测试任务,并通过利用多样化的训练任务中的观测离线数据预测每个动作的奖励向量,而不需要训练期间
→
PDF
a month ago
Prev
Next