猜猜我在干什么”：将易读性扩展到序列决策任务

Sep, 2022

猜猜我在干什么”：将易读性扩展到序列决策任务

"Guess what I'm doing": Extending legibility to sequential decision tasks

Miguel Faria, Francisco S. Melo, Ana Paiva

TL;DR研究了不确定条件下顺序决策任务中可读性的概念。提出了一种名为 PoL-MDP 的方法，能够处理不确定性，同时具有计算上的可处理性，在多种模拟场景中证明了其在状态决策方面的优势，同时也表明该方法可以被用于反向强化学习。通过用户研究评估了该计算策略的可读性。

Abstract

In this paper we investigate the notion of legibility in sequential decision tasks under uncertainty. Previous works that extend legibility

legibility sequential decision tasks uncertainty pol-mdp inverse reinforcement learning

发现论文，激发创造

可读行为的政策规范化

本文提出了一种从可观测模型角度注入易解释性行为，以实现在线可解释性的方法，不需要修改学习算法的组件，而是通过对策略的规范化使决策边界对易读性产生影响，以便支持使用者理解和观察 RL 机制。

Mar, 2022

机器人序列决策学习和推理在不确定性下的应用

本文介绍了一种名为 LCORPP 的机器人 SDM 框架，通过使用混合推理范式提高状态估计器，提供概率规划器的有用先验知识，以估计人类意图和进行规划，实验表明此框架比无学习和无推理的对应框架在办公环境中具有更高的效率和准确性。

Jan, 2019

视觉文本扰动可读性学习

该研究旨在通过学习预测一种扰动文本的易读性的模型来理解规范条件并系统地度量其特性，从而证明基于伪装输入攻击的威胁。

Mar, 2023

POMDPs 和可解释的代理的端到端策略梯度方法

一个 RL 算法，可以通过端到端训练来估算隐藏状态，并将估算可视化为状态转换图。实验结果表明，该算法可以解决简单的 POMDP 问题，并使代理行为可解释给人类。

Apr, 2023

对抗和协作环境下的规划统一框架

提出了一种用于生成易于理解的计划以及能够在对抗环境下保护隐私的混淆计划的统一框架，并展示了如何控制观察者的可观察性以实现目标的混淆或明确。

Feb, 2018

部分可观测环境下自主智能体复杂任务的无模型运动规划

该研究使用无模型强化学习方法解决了部分已知环境下自主智能体的运动规划问题，提出了一种基于线性时态逻辑和 Markov 决策过程的方法，并应用于无人机的实际控制中。

Apr, 2023

模拟解释：可解释策略学习下的决策理解

了解人类行为以实现决策的透明度和责任感非常重要。我们提出了一种新颖的基于模型的贝叶斯方法进行可解释的政策学习，该方法以数据驱动的方式呈现决策行为，并在偏差的信念更新过程和次优的信念 - 行为映射之间进行联合估计，能够满足透明度、部分可观察性和完全离线操作等关键标准。通过对阿尔茨海默病诊断问题的模拟和真实世界数据的实验，我们展示了我们的方法作为审计、量化和理解人类决策行为的潜力。

Oct, 2023

如何展现更可预测的行为

该论文研究了可预测性问题，考虑了环境动态和观察到的 agent 策略的不确定性，通过引入观察者感知的马尔可夫决策过程框架，提出了基于观察者对 agent 策略的信念构建的奖励函数，分析并证明了由这些奖励函数导出的可预测性马尔可夫决策过程可以用目标导向或折扣马尔可夫决策过程来表示，并在两类网格世界问题上从理论和实证两个方面验证了所提出的奖励函数的性质。

Apr, 2024

PDDLEGO: 文本环境中的迭代规划

PDDLEGO proposes an iterative planning representation approach for partially-observed environments, achieving efficient plans and strong performance compared to end-to-end LLMs.

May, 2024

时间逻辑模仿：从演示中学习满足规划的动作策略

本文提出使用状态与运动的离散抽象方法，通过连续策略学习，基于线性时间逻辑公式以确保当前任务在无论是任务层面还是运动层面的干扰下都能顺利完成。

Jun, 2022