BriefGPT.xyz
Ask
alpha
关键词
invalid actions
搜索结果 - 2
利用验证器提高预训练语言模型的规划能力
本论文通过使用 GPT-2 实验来证明,预训练的大型语言模型在计划方面的表现较差,研究人员首先建立了一个验证器在特定状态下对行动的适用性进行分类,然后在生成器中随机抽样无效动作来训练验证器,在生成器和验证器的共同作用下,取得了不错的成果。
PDF
a year ago
策略梯度算法中无效动作屏蔽的深入研究
本文研究探讨针对复杂的规则游戏,使用深度强化学习算法时,如何解决学习出的策略生成的无效动作问题,给出了合理的理论支持,实证了有效性,并给出了不同的行动遮罩方案的评估。
PDF
4 years ago
Prev
Next