潜在行为生成
本文介绍了一种名为 BeT 的新技术,该技术利用多模式建模,并结合动作离散化技术和多任务操作校正,在离线强化学习和行为克隆方面表现出色。我们在各种机器人操作和自驾行为数据集上进行了实验评估,并显示出 BeT 显着改善了解决示范任务的先前最先进工作,同时捕获了预先收集的数据集中存在的主要模式。
Jun, 2022
本文提出了一种名为 C-BeT 的新方法,结合了 Behavior Transformer 多模态生成能力和条件生成模型技术,实现从多模态、嘈杂数据中提取有用、任务中心的行为,取得了有益的效果,而该方法也是第一个实现从无标签、零奖励信息的玩耍数据里纯学习真实世界机器人有用任务行为的方法。
Oct, 2022
该研究提出了一种新的方法来实现基于行为的轨迹生成,该方法基于 MAP-Elites Low-Spread 和 Quality-Diversity Transformer 两个机制,实现了在不确定环境下生成具有一致性、鲁棒性和可重复性的多样化解决方案,并能够自主地实现目标行为。
Mar, 2023
我们提出了一种高效的 BI-level Temporal modeling (BIT) 框架,用于监督行动分割任务,通过学习明确的行动标记来表示行动段,在帧级和行动级上进行时间建模,同时保持较低的计算成本,提高了现有基于 transformer 的方法在行动分割方面的准确性和计算效率。
Aug, 2023
使用离散自编码器来处理动作在随机环境中引起的多种可能性,再结合随机版 Monte Carlo 树搜索算法规划代理的动作和代表环境反应的离散潜变量,明显优于 MuZero 在处理随机国际象棋和 DeepMind Lab 等部分观测模型的 RL 问题中的表现。
Jun, 2021
本研究提出了一种基于动态选择离散化紧密度的方法,通过调整 VQ 方法中的码本大小和离散码数来实现,以应对数据中的复杂性差异,这种方法可在视觉推理和强化学习任务中提高模型性能。
Feb, 2022
该研究利用基于期望最大化算法的训练技术提高 VQ-VAE 模型在 CIFAR-10 数据集上的图像生成结果,并通过知识蒸馏技术,开发出一种非自回归机器翻译模型,其准确性几乎与强贪婪自回归基线变压器相当,但在推理速度上快 3.3 倍。
May, 2018
提出了一种基于 PoseGPT 的自回归变换器的方法,该方法可以生成人体运动序列,利用离散的潜在空间使 GPT-like 模型集中于长程信号预测,获得了在几个数据集上实现最先进的结果。
Oct, 2022
本论文提出了一种名为矢量量化运动规划转换器(VQ-MPT)的新方法,它克服了以往基于学习的方法的主要限制,包括无法扩展到更高维度空间和缺乏对分布之外环境的通用性,使其能够应用于各种复杂性系统,实现了较高的成功率和更快的路径规划。
Jun, 2023