关键词sequential decision-making problems
搜索结果 - 7
- 理解预训练变压器在序贯决策中的训练和泛化
本文考虑了一类顺序决策问题的受监督预训练变压器模型,并且提出了一种解决预训练变压器训练及泛化问题的自然方法,该方法通过在训练过程中包含变压器生成的动作序列来提供更好的性能。同时,文章还分析了预训练变压器作为一种算法的特性,解释了其缺乏探索性 - AAAI参数化投影贝尔曼算子
通过学习近似的 Bellman 操作符来解决 AVI 算法中的问题,提出了一种名为投影 Bellman 操作符(PBO)的创新方法,该方法不需要使用样本估计,能够在泛化过渡样本并避免计算密集型的投影步骤,进而理论上分析了其性质,并利用神经网 - 一个可扩展的机器学习优化框架用于连续决策
我们提出了一个集成的预测 - 优化(PredOpt)框架,通过预测二进制决策变量在最优解中的值,高效地解决顺序决策问题。我们通过循环神经网络和滑动注意机制捕捉组合优化问题的顺序特性,并将基于注意力的编码器 - 解码器神经网络架构与消除不可行 - 超越稳态:随机 Softmax 策略梯度方法的收敛分析
这篇论文介绍了一种结合动态规划和策略梯度的方法,称为动态策略梯度,其中参数是向后训练的。通过对表格 softmax 参数进行收敛性分析,我们发现动态策略梯度训练更好地利用了有限时间问题的结构,这反映在改进的收敛界限上。
- TGRL:一种教师引导增强学习算法
通过权衡强化学习和师生学习目标的重要性,我们提出了一种有原则的方法,实现了在何时遵循教师和何时使用奖励进行动态自动平衡,这种方法名为‘教师引导强化学习’(TGRL),无需超参数调整在不同领域都能超越强基线。
- 广义线性赌博机中的延迟反馈:重访
本文以延迟反馈形式的一般化线性赌博机作为研究对象,通过设计乐观的算法,使得其失效惩罚与决策次数无关,从而大幅提高了现有研究中最优遗憾界的表现。
- IJCAI使用答案集编程在线构建马尔可夫决策过程状态集的方法
本文提出了一种名为 oASP(MDP)的方法,其将 Markov 决策过程(MDP)与 Answer Set 编程(ASP)结合起来,以解决在非平稳领域中寻找最优策略的问题。