关键词sequential decision problems
搜索结果 - 10
- 使用动态准则改进自回归训练
为解决 NLP 任务中的暴露偏差和指标不匹配问题,本文提出了一种基于动态预示算法的解决方案,并开发了新型的动态预示算法,证明其在类似基于跨度的 F1 指标上保持了 DAgger 的无遗憾保证。作者评估了该算法在命名实体识别、文本摘要和机器翻 - 模拟器上的多样化,Top-k 和 Top-Quality 规划
使用蒙特卡洛树搜索方法来解决无法使用经典规划器解决的问题,并在路径规划问题中演示了该方法可以生成多样化和高质量的计划集合。
- AAAI序列决策问题中的零 - shot 辅助
本文研究如何创建助手来帮助代理人解决新的顺序决策问题,介绍了一种新的辅助形式来模拟代理人的偏见,并提出了一种新的规划方法来缩放大型的决策问题,目的是为了获得比基于自动化的替代方案更高的累计奖励,最后我们证明了将建议和自动化相结合的方法比仅使 - 蒙特卡洛树搜索:近期修改和应用综述
本文调查了 Monte Carlo Tree Search (MCTS) 在领域特定修改和混合方法方面的应用,这种方法依赖于智能树搜索并平衡探索和利用。
- WWW基于层次强化学习的异构数据源电子商务搜索结果聚合
使用层次化强化学习技术,将基于用户行为序列的搜索结果聚合和来源筛选作为两个顺序决策任务,实验结果表明该方法能够在 E-commerce 环境中显著提高搜索效果和用户满意度。
- 深度强化学习的随机化先验函数
本文讨论强化学习中的不确定性估计问题,为解决序列决策问题提出了一种随机不可训练 “先验” 网络的方法。实验证明该方法对于线性和非线性表示方法均有效,并且相较之前的尝试在大规模问题上表现更佳。
- ICML经验回忆元学习
本文提出了一种形式化的环境生成方法,以针对开放式任务分布下的元学习代理,旨在在重复性场景中探索其环境而不是立即利用以前发现的解决方案。使用可微分的神经元感性记忆改进了标准 LSTM 工作记忆的元学习体系结构,并进一步在带有重复任务的五种元学 - 带图反馈的随机赌博机的汤普森抽样
本研究介绍了一种新的 Thimpson Sampling 算法扩展,应用于带图反馈的随机顺序决策问题,甚至在图结构本身未知或者不断变化的情况下。通过对真实和模拟的具有图反馈的网络进行广泛的实验结果,可以说明该算法的性能优于使用上界置信度的相 - 可接近性、遗憾和校准;意义和等效性
探讨三个标准(Blackwell 可达性,遗憾最小化和校准)如何在不同的顺序决策问题或玩家与自然之间的重复游戏中评估策略,并将其应用于展现一种新的直观算法类,基于简单的几何特性。
- 选择计算:理论和应用
本文提出了基于贝叶斯选择问题的概率框架中的元层决策,推导出在蒙特卡罗搜索中最优策略的有限采样界,并在一次性决策问题和 Go 中展示了比基于贝叶斯算法和基于赌博算法的启发式方法更优越的启发式近似。