使用深度学习的主动序贯假设检验政策设计

MMOct, 2018

使用深度学习的主动序贯假设检验政策设计

Policy Design for Active Sequential Hypothesis Testing using Deep Learning

Dhruva Kartik, Ekraam Sabir, Urbashi Mitra, Prem Natarajan

TL;DR该研究使用基于深度学习的启发式和 KL 分歧零和游戏设计方法来解决部分可观测马尔可夫决策过程中的主动序贯假设测试问题，并表明在某些情况下所提出的启发式方法优于现有方法。

Abstract

information theory has been very successful in obtaining performance limits for various problems such as communication, compression and hypothesis testing. Likewise, stochastic control theory provides a character

information theory stochastic control theory heuristics deep reinforcement learning sequential hypothesis testing

发现论文，激发创造

使用循环神经网络和模型无关强化学习进行未知环境中的主动假设检验

该研究提出一种深度强化学习和监督学习相结合的方法，用于解决在完全未知环境中的主动顺序假设测试问题。结果表明，与 Chernoff 测试相比，该方法在有限和无限视野问题中表现出竞争力并有时表现更好。

Mar, 2023

主动顺序假设检验

本文提出了两种启发式策略，通过动态规划建立了最优总成本的下界，研究了信息获取率和可靠性的极限，证明了第一个启发式方法的渐近最优性，同时分析了第二个启发式方法在有噪声动态搜索问题中的性能。

Mar, 2012

深度强化学习的验证性概率策略

本研究提出了一种基于 Markov 决策过程、混合整数线性规划、熵式细化和概率模型检验的抽象方法，用于验证深度强化学习中的概率策略，并在一些强化学习基准测试上验证了其有效性。

Jan, 2022

深度主动推断用于部分可观测的马尔可夫决策过程

本文介绍了一种基于 Deep Active Inference 的深度学习架构，结合 Variational Autoencoder 编码连续状态表示，可以直接从高维感觉输入中学习成功策略，并在 OpenAI 基准测试中证明其与深度强化学习算法：Deep Q-learning 相比具有相当或更好的性能。

Sep, 2020

POMDP 中的策略指导的逻辑规范学习：归纳逻辑编程方法

从 POMDP 执行的痕迹中学习得到高质量的启发式方法，通过转换为逻辑语义并利用数据和时间高效的归纳逻辑编程生成可解释的基于信念的策略规范，以在线方式引导 POMDP 求解器的行动选择过程。使用 Answer Set Programming (ASP) 表达的学习启发式方法展现了性能优于神经网络且与最佳手工设计的任务特定启发式方法相当的特点。

Feb, 2024

使用前向 - 后向 SDE 学习深度随机最优控制策略

本文提出了一种基于非线性随机最优控制理论、应用数学和机器学习的不确定性决策制定新方法。我们开展了一项控制框架的研究，旨在解决机器人和自主决策问题中的不确定性，并提出了一种深度神经网络架构用于随机控制。在仿真非线性系统中，我们研究了所提算法的性能和可扩展性，并讨论了未来的研究方向及其对机器人技术的影响。

Feb, 2019

近似最优贝叶斯主动学习与决策

本研究中，我们解决了 Bayesian 主动学习和实验设计中的问题，通过选择测试来减少有关一组假设的不确定性，并开发了 HEC 算法来帮助我们尽快将不确定性减少到单一决策区域。该算法基于计算完整的对称多项式子集的有效实施，并在两个实际应用中得到了验证：近似基于比较的学习和使用机器人手臂的主动定位。

Feb, 2014

深度强化学习用于成本效益医学诊断

本文介绍了一种利用增强学习和奖励设计方法优化实验测试序列，以最大化 F1 得分和降低成本的动态诊断策略。作者使用基于半模型深度诊断策略优化 (SM-DDPO) 的方法处理多种临床任务的数据，实现了高准确性和高成本效益

Feb, 2023

基于轨迹的离线深度强化学习

本文提出一种改进的基于 policy gradient 的强化学习算法，通过在参数空间中探索、重用过去的 off-policy 数据和确定性的行为策略等技术，提高了数据效率、降低了梯度估计的方差并避免了局部最优解。在一系列连续控制基准任务上的实验表明，相较于标准的 policy gradient 方法，该算法能够成功可靠地使用更少的系统交互来学习解决方案。

May, 2019

超越训练：通过自适应动作采样优化基于强化学习的工作车间调度

利用经过训练的深度强化学习智能体进行推理的优化参数化方法，该方法通过调整训练好的行为向量，使智能体在解决方案构建过程中更好地探索或开发，进而在有限的计算预算情况下生成更多可接受的解决方案。

Jun, 2024