潜在行为生成

Mar, 2024

Behavior Generation with Latent Actions

Seungjae Lee, Yibin Wang, Haritheja Etukuru, H. Jin Kim, Nur Muhammad Mahi Shafiullah...

TL;DR通过将连续行为离散化为层次化矢量量化模块，VQ-BeT 是一种能够处理多模态行为预测、条件生成和部分观测的行为生成通用模型，其在七个环境中取得了比 BeT 和 Diffusion Policies 等现有模型更好的效果，并且加速了推断速度 5 倍以上。

Abstract

generative modeling of complex behaviors from labeled datasets has been a longstanding problem in decision making. Unlike language or image generation, →

generative modeling decision making behavior transformers vector-quantized behavior transformer multimodal action prediction

发现论文，激发创造

行为变换器：一石多鸟地克隆 $k$ 种模式

本文介绍了一种名为 BeT 的新技术，该技术利用多模式建模，并结合动作离散化技术和多任务操作校正，在离线强化学习和行为克隆方面表现出色。我们在各种机器人操作和自驾行为数据集上进行了实验评估，并显示出 BeT 显着改善了解决示范任务的先前最先进工作，同时捕获了预先收集的数据集中存在的主要模式。

Jun, 2022

从游戏到政策：基于未筛选机器人数据的条件行为生成

本文提出了一种名为 C-BeT 的新方法，结合了 Behavior Transformer 多模态生成能力和条件生成模型技术，实现从多模态、嘈杂数据中提取有用、任务中心的行为，取得了有益的效果，而该方法也是第一个实现从无标签、零奖励信息的玩耍数据里纯学习真实世界机器人有用任务行为的方法。

Oct, 2022

质量 - 多样性转换器：使用决策 Transformer 生成行为条件轨迹

该研究提出了一种新的方法来实现基于行为的轨迹生成，该方法基于 MAP-Elites Low-Spread 和 Quality-Diversity Transformer 两个机制，实现了在不确定环境下生成具有一致性、鲁棒性和可重复性的多样化解决方案，并能够自主地实现目标行为。

Mar, 2023

BIT：高效的监督动作分割的双层时序建模

我们提出了一种高效的 BI-level Temporal modeling (BIT) 框架，用于监督行动分割任务，通过学习明确的行动标记来表示行动段，在帧级和行动级上进行时间建模，同时保持较低的计算成本，提高了现有基于 transformer 的方法在行动分割方面的准确性和计算效率。

Aug, 2023

基于向量量化模型的分层仿真学习

本文提出使用强化学习来识别专家轨迹中的子目标，从而构建一个向量量化生成模型，以进行子目标级别的规划，并在复杂的长期决策问题上表现出色，优于现有技术。

Jan, 2023

用于规划的矢量量化模型

使用离散自编码器来处理动作在随机环境中引起的多种可能性，再结合随机版 Monte Carlo 树搜索算法规划代理的动作和代表环境反应的离散潜变量，明显优于 MuZero 在处理随机国际象棋和 DeepMind Lab 等部分观测模型的 RL 问题中的表现。

Jun, 2021

具有动态向量量化的自适应离散通信瓶颈

本研究提出了一种基于动态选择离散化紧密度的方法，通过调整 VQ 方法中的码本大小和离散码数来实现，以应对数据中的复杂性差异，这种方法可在视觉推理和强化学习任务中提高模型性能。

Feb, 2022

向量量化自编码器的理论与实验

该研究利用基于期望最大化算法的训练技术提高 VQ-VAE 模型在 CIFAR-10 数据集上的图像生成结果，并通过知识蒸馏技术，开发出一种非自回归机器翻译模型，其准确性几乎与强贪婪自回归基线变压器相当，但在推理速度上快 3.3 倍。

May, 2018

PoseGPT：基于量化的三维人体动作生成和预测

提出了一种基于 PoseGPT 的自回归变换器的方法，该方法可以生成人体运动序列，利用离散的潜在空间使 GPT-like 模型集中于长程信号预测，获得了在几个数据集上实现最先进的结果。

Oct, 2022

使用 Transformer 学习采样字典，实现机器人运动规划的高效与通用

本论文提出了一种名为矢量量化运动规划转换器（VQ-MPT）的新方法，它克服了以往基于学习的方法的主要限制，包括无法扩展到更高维度空间和缺乏对分布之外环境的通用性，使其能够应用于各种复杂性系统，实现了较高的成功率和更快的路径规划。

Jun, 2023