通过强化学习与环境修正实现自动演绎路径学习

Jun, 2023

通过强化学习与环境修正实现自动演绎路径学习

Automatic Deduction Path Learning via Reinforcement Learning with Environmental Correction

Shuai Xiao, Chen Pan, Min Wang, Xinxin Zhu, Siqiao Xue...

TL;DR本文提出一种自动化结账方案，基于深层次强化学习方法解决了搜索空间巨大、历史记录匮乏等问题，通过构建分层的动作空间和部分观察的决策问题模型，在全球最大的电子支付业务上推广了这一方案。

Abstract

automatic bill payment is an important part of business operations in fintech companies. The practice of deduction was mainly based on the total amount or heuristic search by dividing the bill into smaller parts to deduct as much as possible. This article proposes an →

automatic bill payment end-to-end approach deep hierarchical reinforcement learning partially observable markov decision problem electronic payment business

发现论文，激发创造

连续随机动力学学习环境模型

通过深度强化学习、自动化学习和马尔可夫决策过程等技术，学习出由自主智能体控制的环境模型，以解决复杂环境下的控制问题，并在多个强化学习基准环境中验证了方法的有效性。

Jun, 2023

深度强化学习在支付欺诈中的应用

该研究借助强化学习的思想，将欺诈检测问题转化成一个序列决策问题，并探索了不同奖励函数的效果，其性能基于深度 Q 学习算法在两个公开欺诈数据集上进行了评估与比较。

Dec, 2021

基于强化学习的清洁机器人路径规划

采用强化学习和迁移学习优化的有效路径规划方法，可在不同环境下使用以增加清洁机器人的训练性能和收敛速度，显著提高其清洁效率和性能。

Aug, 2022

利用 POMDP 树搜索进行奖励模型调和的解释

为了提高人们对人工智能系统的信任，本研究致力于调节在线部分可观察马尔可夫决策规划算法的奖励模型与人类用户所假设的奖励模型之间的差异，并通过分析算法与用户之间的差异以估计用户的目标。

May, 2023

用端到端强化学习实现自动分类学归纳

本文提出一种新颖的强化学习方法，旨在从一组术语中自动归纳出分类法，该方法采用多种信息源学习术语对的表示，并使用策略网络确定要选择哪个术语以及将其放置在分类法中的何处，在训练分类法时通过整体树度量进行累积奖励，实验证明，该方法在两个不同领域的两个公共数据集上优于先前的最先进的分类法归纳方法高达 19.6％的祖先 F1。

May, 2018

部分可观测环境下自主智能体复杂任务的无模型运动规划

该研究使用无模型强化学习方法解决了部分已知环境下自主智能体的运动规划问题，提出了一种基于线性时态逻辑和 Markov 决策过程的方法，并应用于无人机的实际控制中。

Apr, 2023

自动强化学习概述

论文探讨自动化强化学习的关键元素和挑战，并讨论自动化强化学习的最新工作、应用和研究方向。

Jan, 2022

基于强化学习的 MCTS 路径规划在自动停车中的加速

通过将强化学习与蒙特卡洛树搜索相结合，我们提出了一种方法来增强完全可观察环境下自动停车任务的在线路径规划。通过先前的搜索步骤中综合利用先前的知识，状态评估方法对于在高维空间下的基于采样的规划方法可以提高实时系统中的计算效率。在复杂环境下执行自动停车任务的挑战在于传统的解析方式很难构建坚固但轻量级的启发式引导。为了克服这一限制，我们在路径规划框架下提出了一种强化学习流程和蒙特卡洛树搜索的结合。通过迭代学习状态的值以及从上一个周期的结果中选出的最佳动作样本，我们能够建模给定状态的值估计器和策略生成器。通过这样的方式，我们建立了一种探索与利用之间的平衡机制，加速了路径规划过程，并在不使用人工专家驾驶员数据的情况下保持其质量。

Mar, 2024

未知环境下在线覆盖路径规划的端到端强化学习

该研究提出了基于强化学习的、连续状态和动作空间下的在线覆盖路径规划方法，用于处理未知环境的大型区域，并且结合了全局地图和局部感知输入，以及多尺度地图输入表示的观测空间构建，通过提出的全变差奖励，实现了学习路径上无漏洞被覆盖的目标。

Jun, 2023

执行 - 衡量策略：在活跃衡量中的部分可观测环境中强化学习

本文研究马尔可夫决策过程中的行动 - 条件无噪声可观察 MDS（ACNO-MPDs），提出了基于 “先控制再观察” 启发式的强化学习算法，并在部分可观察环境中展示了其卓越性能。

Mar, 2023