BriefGPT.xyz
Ask
alpha
关键词
policy inference
搜索结果 - 5
从只包含状态序列中学习非 Markov 决策制定
本文研究了一种在非 Markov 决策过程下进行深度生成建模的模型,在无法观察到动作的情况下进行模仿学习和决策制定。
PDF
a year ago
实现综合性主动推理代理,第一部分:认识目标和图形化规范语言
本文介绍了 Active Inference (AIF) 作为 Free Energy Principle (FEP) 的一个结果,并给出了一个利用特定自由能泛函的局部版本的 FEP,使其适用于任意图形模型,为构建具有限制的平衡图提供了一种
→
PDF
a year ago
AAAI
实时人 - 智能体协同的自适应智能体架构
提出一种基于预训练的 RL 策略库和规则策略的人类无模型自适应代理架构,通过一种新的相似性度量方法推断人类策略并选择最具互补性的策略,以此最大化团队在人类机器协作中的总体表现。
PDF
3 years ago
你的行动言明一切:深度强化学习隐私泄露攻击
本文首次探讨了深度强化学习中可能泄露隐私信息的情况,并提出了两种方法来推断训练后代理的潜在隐私信息。作者在不同情境下进行了大量实验并表明以上两种方法可以有效地从训练后的代理中推断出敏感地图信息。
PDF
5 years ago
NIPS
通过非平衡热力学对图上最优分层策略推断进行表征
该论文介绍了一种新的推断方法来构建状态空间层次结构,从而得到一种层次化的策略推断算法,用以逼近先前和最优策略之间在状态空间轨迹密度上的离散梯度流。
PDF
7 years ago
Prev
Next