本文介绍了一种通过生成式预训练学习得到的视觉表示,用于有效地加速并提高多种任务下视觉增强学习系统性能和效率的框架。我们在视频数据上预训练了一个无动作潜在视频预测模型,并将这些表示用于未知环境下的学习操作条件下的世界模型。我们还引入了一个新的架构,该架构在预训练的无动作预测模型的基础上堆叠了一个动作条件潜在预测模型,以更好地实现探索。同时也提出了基于视频的内在激励奖励机制,利用预训练表示的优势,有效提升了数据利用率和最终权能的完成度。
Mar, 2022
该论文提出了一种使用潜在动作空间学习策略的离线强化学习方法,能够有效克服现有算法存在的内插误差,具有优异的性能表现。
Nov, 2020
通过大型语言模型 (LLM) 以及强化学习技术,我们开发了一种名为 LLaRP 的方法,使得 LLM 可以作为具有推广性的策略应用于具体视觉任务中,能够忽略任务指令的复杂改写并生成新的最佳行为,在未见过的任务中达到了其他常见的学习基线或零样本 LLM 应用的 1.7 倍成功率,并发布了一个名为 “Language Rearrangement” 的新基准测试数据集,用于研究基于语言、多任务和具体化 AI 问题。
Oct, 2023
本文提出了一种名为 LAPO(latent-variable advantage-weighted policy optimization)的方法,通过使用潜变量的策略来解决离线数据集分布偏移问题,取得了在多项任务中超越同类方法的显著性能提升。
该研究探索了如何利用半监督式模仿学习的方法,在游戏领域中通过预训练行为先验模型来实现强化学习,从而达到人类甚至更高的行为水平。
Jun, 2022
本文提出了一种基于意图模型和时序差分学习目标的强化学习方法,能够从非动作标签的被动数据中学习状态、策略和环境的可能后果三种表示,为解决后续任务提供了可行的价值预测的特性。
Apr, 2023
Vid2Act 是一种基于模型的强化学习方法,其使用世界模型作为行为学习的模拟器并使用它们来衡量动力学表示转移和策略转移的域相关性,以将有价值的动作条件动态和潜在有用的行动演示从离线到在线环境进行转移。
Jun, 2023
通过使用深度预测策略训练框架,该研究提出了一种有效的方法来训练预测动作策略,使用合成和模拟训练样本来强制进行视觉和运动数据的抽象,以及使用策略搜索强化学习方法来训练每个任务的策略超层,该框架在 PR2 机器人上训练物体抓取和投球等技能任务,并且训练样本只使用了约 180 次实际机器人尝试,达到了很好的效果。
Mar, 2017
研究了在没有给定先验结构的情况下,如何基于状态表示和行为表示实现模型无关的强化学习方法,并提供了相应的算法和收敛条件。
Feb, 2019
离线强化学习 (LaMo) 是一种基于决策 Transformer 的通用框架,旨在通过使用预训练语言模型和无广义知识的 LoRA 微调方法进行生成嵌入,并在稀奖励和有限数据样本任务中取得了最先进的性能。