BriefGPT.xyz
大模型
Ask
alpha
关键词
goal-directed tasks
搜索结果 - 3
通过强化学习将大型视觉语言模型细调为决策代理
使用强化学习对视觉语言模型进行微调,提出了一种算法框架来增强其决策能力,验证了连续思维推理的重要性,并展示了在各种任务中超越商业模型的性能。
PDF
2 months ago
通过变分推断实现基于结果的强化学习
通过提出一种新的变分推断形式,从环境交互中直接学习良好的奖励函数,并使用新的概率贝尔曼反演运算符,发展了一种离线策略算法来解决目标导向任务,该方法消除了手工制作奖励函数的需要,并对各种机械操纵和运动任务产生了有效的目标导向行为。
PDF
3 years ago
从视觉观察推断目标指向任务的因果关系
本文提出了一种利用有向无环图产生因果知识,辅助人工智能完成目标驱动任务的方法,并通过实验证明该方法可以有效地推广到在先前未见的具有新的因果结构的环境下完成新任务。
PDF
5 years ago
Prev
Next