BriefGPT.xyz
Ask
alpha
关键词
state transitions
搜索结果 - 5
去噪蒸馏改进的事件框架变换器用于准确的凝视跟踪
本研究利用事件数据和帧数据解决了被动凝视估计问题,通过量化当前状态到之前注册的锚定状态的状态转换,通过两阶段学习的凝视估计框架以粗到精的方式进行锚定状态选择和最终凝视位置估计,通过引入去噪扩散算法改善泛化能力,并通过大量实验证明该方法的有效
→
PDF
3 months ago
ICLR
通过转换模型不一致性学习观测到的模仿
本文提出了一种利用中间策略来训练学习者的一种方法,该中间策略可以近似地执行专家的策略,以便用于不同环境下的模仿学习,并在 MuJoCo 运动任务中取得了良好的结果。
PDF
2 years ago
基于模型的强化学习中的价值等价原则
本文探讨强化学习中的值等价性原则,提出基于值等价性原则的模型学习问题,证明了随着政策和函数集的扩大,价值等价模型的类别将收缩到描述环境的完美模型上,并通过实验验证了该价值等价模型学习方法的优越性及其在最大似然估计等传统模型学习算法中的实用意
→
PDF
4 years ago
ACL
数据高效的神经指令跟随预学习环境表示
研究了一种自然语言指令到状态转换(动作)映射的数据有效学习方法,该方法受到从先前的语言观察中形成的概念容易被关联到语言的思想的启发。通过使用观察自由语言状态转换的初始环境学习阶段来增强基线指令跟随学习器,使其在处理指令跟随训练数据之前诱导出
→
PDF
5 years ago
无模型蒙特卡罗法中引入外生状态
本文提出了一种针对高维 MDPs 的新方法 MFMCi,通过剔除一些状态和动作变量来实现状态转移的搭配,以此来代替昂贵的模拟器生成轨迹,该方法在具有挑战性的野火管理 MDP 上进行了评估。
PDF
7 years ago
Prev
Next