BriefGPT.xyz
Ask
alpha
关键词
long-horizon decision-making
搜索结果 - 3
渐进高效学习
通过使用名为通信效率交互学习(CEIL)的新学习框架,将人类的渐进式高效沟通方式复制到 AI 代理中,以抽象、动态的语言装备学习代理,并在最小化通信的同时激励学习,实现了人类模式的出现,使学习者和教师通过交换越来越抽象的意图逐渐高效地沟通,
→
PDF
9 months ago
基于向量量化模型的分层仿真学习
本文提出使用强化学习来识别专家轨迹中的子目标,从而构建一个向量量化生成模型,以进行子目标级别的规划,并在复杂的长期决策问题上表现出色,优于现有技术。
PDF
a year ago
ICML
利用扩散计划实现灵活的行为合成
本文通过扩展动力学模型,利用扩散概率模型去掉了传统轨迹优化方法的瓶颈,将采样和计划步骤近乎完全融合,通过分类器和图像插值获得了在线规划策略,并在长期决策和测试时间灵活性强的控制环境中成功应用了该框架。
PDF
2 years ago
Prev
Next