BriefGPT.xyz
Ask
alpha
关键词
inverse models
搜索结果 - 2
对有限记忆 POMDP 的表示学习进行多步逆模型的泛化
学习代理中心状态表示的关键挑战在于在强化学习算法扩展和高效应用于下游任务时,仅对相关信息进行编码而舍弃无关信息。该研究考虑在更具挑战性的高维非马尔可夫环境中,从过去观察序列中译码状态的发现代理中心状态问题,并通过适应广义逆模型来解决此任务。
→
PDF
2 months ago
ICLR
模拟过去的学习
本文摘要:本研究的目的是基于人类反馈对智能体进行政策学习,同时通过学习特征编码器结合学习反向模型,从而使得智能体能够向后模拟人类行为以推断人类行为背后的动机。
PDF
3 years ago
Prev
Next