感知、表征、生成：将多模态信息翻译为机器人运动轨迹

Apr, 2022

感知、表征、生成：将多模态信息翻译为机器人运动轨迹

Perceive, Represent, Generate: Translating Multimodal Information to Robotic Motion Trajectories

Fábio Vital, Miguel Vasco, Alberto Sardinha, Francisco Melo

TL;DR利用 Perceive-Represent-Generate (PRG) 三阶段框架、多模态深度生成模型，将机器人执行指令的动作序列与不同感知模态（例如视觉或声音）的感知信息相映射，并将其应用于机器人书写任务，完成可读可懂的手写字体。

Abstract

We present perceive-represent-generate (PRG), a novel three-stage framework that maps perceptual information of different modalities (e.g., visual or sound), corresponding to a sequence of instructions, to an adequate sequence of movements to be executed by a robot. In the first stage,

perceive-represent-generate multimodal deep generative model robotic handwriting perceptual modalities

发现论文，激发创造

多模态感知中基于生成模型的软体机器人交互

该研究介绍了一个感知模型，通过协调来自不同模态的数据，构建一个完整的状态表示和吸收必要的信息，从而为开发复杂的控制策略铺平了道路。该模型基于感知输入和机器人动作之间的因果关系，采用生成模型来高效压缩融合信息并预测下一个观察值。我们首次提出了关于如何从视觉和本体感知预测触觉以及跨模态生成的研究，以及这对于软体机器人在非结构化环境中的交互的重要性。

Apr, 2024

M$^3$GPT：一种先进的多模态、多任务框架用于运动理解与生成

该研究提出了 M$^3$GPT，一种先进的多模态、多任务框架，用于运动理解和生成。该模型通过统一表征空间、在原始运动空间建模和建立不同运动任务之间的连接，实现了对多种信号的综合理解和生成，为极具挑战性任务提供了强大的零样本泛化能力。

May, 2024

机器人操作的通用语义几何表现

本文提出一种名为语义几何表征（SGR）的感知模块，旨在整合 RGB 和深度相机的信息，以更好地学习机器人感知和控制的表征，实验结果表明，SGR 在单任务和多任务设置下的表现均显著优于其他方法，并具有到新语义属性的泛化能力。

Jun, 2023

多模态多部分人体动作综合的统一框架

通过量化多种身体部位的运动为其各自领域定制的码本，利用预训练模型将多模态信号转换为共享的潜在空间，并通过逐步预测后续令牌形成完整序列来将这些信号转换成离散的运动令牌，最后从令牌序列中重构连续的实际运动。我们的研究方法将多模态动作生成挑战框架定义为令牌预测任务，利用基于控制信号模态的专门码本，具有可扩展性，能够轻松整合新的模态。广泛的实验证明了我们设计的有效性并强调了其广泛应用的潜力。

Nov, 2023

RoboCodeX: 机器人行为综合的多模态代码生成

提出了一种用于广义机器人行为综合的树状多模态代码生成框架 RoboCodeX，通过将高级人类指令分解为多个以物体为中心的操作单元，并应用代码生成来实现对各种机器人平台的广义化能力。通过预训练和迭代自更新方法引入了专门的多模态推理数据集，以增强将概念和感知理解转化为控制命令的能力。大量实验证明 RoboCodeX 在模拟器和真实机器人上在四种不同类型的操作任务和一种导航任务中实现了最先进的性能。

Feb, 2024

Motron: 多模态概率人体运动预测

论文提出了 Motron 模型，一种用于人机交互中的多模态运动预测的概率图结构模型，并在现实场景中的多个数据集中验证了其在运动预测方面的优越性。

Mar, 2022

视频对话生成中的多模态语义图协同推理

本文研究了基于视频对话生成，提出一种方法，可以将视频数据集成到预训练语言模型中，通过多模态推理实现各种模态之间的互补信息，实验结果表明，该模型能够在自动和人工评估方面显著优于现有的最先进模型。

Oct, 2022

基于程序的、组合通用的机器人操作

通过提出一种利用语言指令的可执行程序来更好地利用预训练的 VL 模型的模块化方法，我们可以改善在任务和物体未知情况下的运用和组合泛化能力。

Apr, 2023

实时感知遇上反应式动作生成

研究了机器人在存在不确定性情况下的抓取和操纵问题，提出了连续实时感知和反应运动生成方法在动态操纵场景中的重要性，并比较了三种不同的系统架构。通过在真实机器人平台上进行四个场景的广泛评估，量化了反应运动生成系统中不同时间尺度实时反馈融合的鲁棒性和准确性，并报告了系统建设中的经验教训。

Mar, 2017

运动基元组合实现可验证的学习行为：对颗粒介质舀取应用

构建了一个能够从自然语言输入中可靠生成行为的机器人行为模型，通过构建自然语言抽象器所创建的学习行为的验证构架，在实时中合成了基于给定动作基元的有向图来生成行为，并借助运动基元和概率验证的最新进展，如果按照约定的标准构造这些基本运动元件，则生成的行为是可概率验证的，通过模拟探索任务和实际机器人操作来展示了这种可验证行为生成的能力。

Sep, 2023