使用深度强化学习进行 X 射线 CT 的序列实验设计
利用离线演示轨迹的强化学习方法,通过最大均值差异(MMD)计算轨迹距离并将策略优化视为一种受距离限制的优化问题,从离线演示学习到的形状奖励函数实现了与离线演示相匹配的状态 - 动作访问边缘分布,从而在稀疏奖励环境下提供了更快且更高效的在线强化学习方法。
Jan, 2024
使用 Theta-Resonance 和策略梯度算法探索设计空间并训练智能代理,从而在评估机制反馈下实现最优样本的生成。
Nov, 2022
该论文提出了一种名为保守密度估计(CDE)的新的训练算法,通过对状态 - 动作占据稳态分布明确定义约束条件,解决了离线强化学习中的样本外推错误问题,该方法在稀疏奖励或数据不足的情况下实现了最先进的性能,对于具有挑战性的任务,CDE 方法始终优于基线模型,展示了我们方法在离线强化学习中解决外推错误问题的优势。
Jan, 2024
本文提出了一种基于 POMDP 模型的跟踪算法,该算法使用强化学习算法进行决策,并以稀疏奖励信号为辅助训练,旨在解决跟踪过程中图像模糊和计算资源受限等问题。同时,該算法使用互联网视频数据源进行跟踪器的训练和评估,从而逐步解决跟踪数据不足等问题。
Jul, 2017
通过应用强化学习的最新趋势并借鉴专家代理的演示,提出了两种新型跟踪器:A3CT 和 A3CTD,均利用现有的跟踪器进行有效的跟踪,并在多个基准测试中取得了最新的成果。
Sep, 2019
本文提出了一个无需离线训练的在线学习方法,通过递归最小二乘算法辅助进行 few-shot 在线自适应学习,实现在模型中构建记忆保留机制,同时防止过度拟合和遗忘,有效提升了现代深度跟踪器的表现效率。
Dec, 2021
探究离散时间 Markov 决策过程的自动翻译问题,提出了一种能够实现正确翻译为标量奖励信号的算法。该算法适用于 omega 正则语言对时态较为严格的情况,并使用了最新的基于转义的自动翻译技术。
Mar, 2023
我们提出了一个能够逐步扩展解释性时间逻辑规则集来解释时间事件发生的框架。利用时间点过程建模和学习框架,规则内容和权重将逐渐优化,直到观察的事件序列的似然性最佳。我们的算法通过在主问题中更新当前规则集的权重,并在子问题中搜索和包含新规则来增加似然性。主问题被定义为凸问题,使用连续优化方法相对容易求解,而子问题需要在庞大的组合规则谓词和关系空间中进行搜索。为了克服这一挑战,我们提出了一种神经搜索策略,通过学习生成新规则内容的一系列动作。该策略参数将使用强化学习框架进行端到端训练,其中奖励信号可以通过评估子问题目标来高效查询。训练好的策略可以以可控的方式生成新规则。我们在合成和真实的医疗数据集上评估了我们的方法,取得了有前景的结果。
Aug, 2023
通过结合神经常微分方程和无模型强化学习,我们提出了一种新颖的基于 ODE 的循环模型用于解决部分可观察的马尔可夫决策过程,通过模型推断从历史过渡中提取不可观测的动态相关信息,并通过多个实验验证了方法的有效性和鲁棒性,尤其在处理不规则采样的时间序列方面。
Sep, 2023
提出了一种用于深度强化学习的高效适应性轨迹约束探索策略,利用不完整的离线演示作为参考,引入了一种新的基于策略梯度的优化算法,为单智能体和多智能体强化学习提供了一种自适应剪切轨迹距离奖励的方法。通过对两个大型二维网格世界迷宫和几个 MuJoCo 任务的实验验证,证明了该方法在实现时间延长的探索和避免短视和次优行为方面的显著优势。
Dec, 2023