目标识别作为强化学习

AAAIFeb, 2022

Goal Recognition as Reinforcement Learning

Leonardo Rosa Amado, Reuth Mirsky, Felipe Meneguzzi

TL;DR本文提出了一种结合基于模型的强化学习和目标识别的框架，在离线学习和在线推理阶段分别使用 tabular Q-learning 和三种推理度量，以解决目标识别中需要手动设计、在线计算等问题，从而在标准评估环境中实现了最先进的性能，同时在嘈杂环境中也表现出了优异的性能。

Abstract

Most approaches for goal recognition rely on specifications of the possible dynamics of the actor in the environment when pursuing a goal. These specifications suffer from two key issues. First, encoding these dynamics requires careful design by a domain expert, which is often not robu

goal recognition reinforcement learning offline learning online inference noisy environments

发现论文，激发创造

基于线性规划的目标识别规划方法

本文提出了一种基于算子计数框架的方法来有效计算符合观察结果的解，用于解决目标识别任务，并对部分和噪声观测进行估计和满足观测。通过大规模数据集的实证评估，证明了该方法在一致性比率、准确性和分散性等方面优于以往方法，同时为解决目标识别任务的组合优化开辟了新的研究路径。

May, 2019

连续领域中的启发式在线目标识别

本文提出一种基于规划的计划识别方法，能够在线识别目标以及适用于连续空间，使用两个启发式决策点和连续环境的启发式策略来提高运行时效率。

Sep, 2017

线性规划通过目标识别

目标识别是观察者根据感知到的主体代理行为的一系列观察结果来识别与计划相对应的目标的任务。本文设计了一种依赖于操作计数框架的新型识别方法，并提出了新的约束条件，从理论和实证上分析了它们的特性。在理论方面，我们证明了新的约束条件能够提供符合观察结果的计划成本的下界。我们还进行了广泛的实证评估，评估了新约束条件如何改善解决方案的质量，并发现它们在决定哪些目标不太可能是解决方案的一部分方面特别有用。我们的新型识别方法具有两个关键优势：第一，它们利用了新的整数 / 线性规划约束来高效识别目标；第二，我们展示了新的整数 / 线性规划约束如何在部分可观测性和噪声可观测性下提高对目标的识别能力。

Apr, 2024

深度学习任务中的目标识别：GRNet 方法

研究使用机器学习将目标识别问题转化为分类任务，利用循环神经网络预测代理目标，并在性能上优于现有方法。

Oct, 2022

利用规划里程碑进行混合在线目标识别

本文提出了一种在线目标识别混合方法，结合了符号规划和数据驱动方法，并在真实世界的烹饪场景中进行了评估，研究结果表明，与现有技术相比该方法在计算时间上更高效，同时也提高了目标识别的性能。另外，论文也证明了该方法适用于真实世界的场景。

Jan, 2023

基于向量表示的离散和连续域在线目标识别

本研究基于传统调用规划器和简化运动模型，提出了一种高效的在线目标识别方法，可在离散和连续领域内使用，适用于需要亚秒级识别的机器人应用。

Jul, 2023

前向 - 后向强化学习

通过训练一个模型来从已知的目标状态开始进行逆向预测，将强化学习中的目标函数引入到代理中，从而加速训练过程，并在 Gridworld 和汉诺塔游戏中进行了实验验证。

Mar, 2018

完全可观察非确定性领域模型中的时间扩展目标识别

本文研究将目标识别扩展到具有完整可观察性和非确定性的计划领域模型中，重点是在使用线性时间逻辑（LTLf）和纯过去线性时间逻辑（PLTLf）表达的有限痕迹上识别目标。我们开发了第一种能够识别此类设置中目标的方法，并使用六个计划领域模型上的不同 LTLf 和 PLTLf 目标进行评估，实验结果表明我们的方法在不同的识别设置中识别时间上延长的目标是准确的。

Jun, 2023

想象目标的视觉强化学习

介绍了一种通过结合无监督表示学习和强化学习来获得一般技能库的算法，可以处理原始感官输入（如图像），并使用后期目标重新标记方案来进一步提高其方法的样本效率，在实际机器人系统上获得了比之前的技术更好的效果。

Jul, 2018

CostNet: 目标导向强化学习的端到端框架

本文引入一种新的强化学习算法，通过学习马尔可夫决策过程中两个状态之间的距离来预测，距离度量作为内在奖励被用于推动智能体的学习。实验结果表明，相比于模型无关的强化学习，该算法在多个测试环境中具有更好的样本效率。

Oct, 2022