BriefGPT.xyz
Ask
alpha
关键词
pre-trained policy
搜索结果 - 2
增强模仿学习策略的在线适应性
我们提出通过在线调整来弥补模仿学习中的失败,我们的方法将预训练策略的动作建议与专家记录的相关经验相结合,通过适应的行为更好地模仿专家策略,实验表明适应的智能体表现比纯模仿学习的对应体更好,特别是在基础策略灾难性失败时,适应的智能体仍然能够实
→
PDF
a month ago
ROSO: 通过合成观测改进机器人政策推断
我们提出使用生成人工智能(AI)来改变推理过程中的观察,以提高预训练策略的零样本性能,并通过稳定的扩散来预处理机器人对新对象的观察,从而在未经漫长微调的情况下提高机器人的适应能力。
PDF
7 months ago
Prev
Next