通过强化学习与环境修正实现自动演绎路径学习
通过深度强化学习、自动化学习和马尔可夫决策过程等技术,学习出由自主智能体控制的环境模型,以解决复杂环境下的控制问题,并在多个强化学习基准环境中验证了方法的有效性。
Jun, 2023
该研究借助强化学习的思想,将欺诈检测问题转化成一个序列决策问题,并探索了不同奖励函数的效果,其性能基于深度 Q 学习算法在两个公开欺诈数据集上进行了评估与比较。
Dec, 2021
为了提高人们对人工智能系统的信任,本研究致力于调节在线部分可观察马尔可夫决策规划算法的奖励模型与人类用户所假设的奖励模型之间的差异,并通过分析算法与用户之间的差异以估计用户的目标。
May, 2023
本文提出一种新颖的强化学习方法,旨在从一组术语中自动归纳出分类法,该方法采用多种信息源学习术语对的表示,并使用策略网络确定要选择哪个术语以及将其放置在分类法中的何处,在训练分类法时通过整体树度量进行累积奖励,实验证明,该方法在两个不同领域的两个公共数据集上优于先前的最先进的分类法归纳方法高达 19.6%的祖先 F1。
May, 2018
该研究使用无模型强化学习方法解决了部分已知环境下自主智能体的运动规划问题,提出了一种基于线性时态逻辑和 Markov 决策过程的方法,并应用于无人机的实际控制中。
Apr, 2023
通过将强化学习与蒙特卡洛树搜索相结合,我们提出了一种方法来增强完全可观察环境下自动停车任务的在线路径规划。通过先前的搜索步骤中综合利用先前的知识,状态评估方法对于在高维空间下的基于采样的规划方法可以提高实时系统中的计算效率。在复杂环境下执行自动停车任务的挑战在于传统的解析方式很难构建坚固但轻量级的启发式引导。为了克服这一限制,我们在路径规划框架下提出了一种强化学习流程和蒙特卡洛树搜索的结合。通过迭代学习状态的值以及从上一个周期的结果中选出的最佳动作样本,我们能够建模给定状态的值估计器和策略生成器。通过这样的方式,我们建立了一种探索与利用之间的平衡机制,加速了路径规划过程,并在不使用人工专家驾驶员数据的情况下保持其质量。
Mar, 2024
该研究提出了基于强化学习的、连续状态和动作空间下的在线覆盖路径规划方法,用于处理未知环境的大型区域,并且结合了全局地图和局部感知输入,以及多尺度地图输入表示的观测空间构建,通过提出的全变差奖励,实现了学习路径上无漏洞被覆盖的目标。
Jun, 2023
本文研究马尔可夫决策过程中的行动 - 条件无噪声可观察 MDS(ACNO-MPDs),提出了基于 “先控制再观察” 启发式的强化学习算法,并在部分可观察环境中展示了其卓越性能。
Mar, 2023