SATO: 稳定的文本到动作框架

May, 2024

SATO: Stable Text-to-Motion Framework

Wenshuo Chen, Hongru Xiao, Erhang Zhang, Lijie Hu, Lei Wang...

TL;DR研究发现了文本到动作模型的重要问题，并建立了不稳定的模型输出与文本编码模块的注意力模式之间的明确联系。因此，引入了一个稳定的文本到动作框架（SATO），其中包括稳定的注意力、稳定的预测和平衡准确性和稳健性之间的模块。验证模型的稳定性时，引入了一个基于 HumanML3D 和 KIT-ML 的新的文本同义扰动数据集，结果表明 SATO 在对同义词和轻微扰动的稳定性方面明显优于其他模型，同时保持高准确性表现。

Abstract

Is the text to motion model robust? Recent advancements in Text to Motion models primarily stem from more accurate predictions of specific actions. However, the text modality typically relies solely on pre-trained Contrastive Language-Image Pretraining (CLIP) models. Our research has u

text to motion model contrastive language-image pretraining inconsistent outputs erratic attention patterns stable text-to-motion framework

发现论文，激发创造

文本到动作检索：走向人体运动数据和自然语言的联合理解

本文探讨如何实现基于文本描述的运动检索任务，利用姿态估计、文本编码和基于分割空时注意力的 Motion Transformer 模型，对大量 3D 骨骼序列进行内容检索，实现了相应的定量度量评估。

May, 2023

引导注意力的可解释运动字幕

从动作生成文本的研究，关注体部特定区域与动作的时间同步，通过运动编码和时空注意模型的结合，引入引导注意力及自适应门控训练策略，实现解释性生成并在性能上有所提升。

Oct, 2023

基于文本的人体运动生成与多视角关注机制

基于文本描述生成的 3D 人体动作一直以来都是一个研究焦点，本文提出了使用多角度注意机制的两阶段方法，即基于人体局部和整体的运动注意以及运动和文本跨模态的全局局部注意机制，通过生成变压器实现文本驱动的运动生成，在 HumanML3D 和 KIT-ML 上的实验证明了我们方法在定性和定量评估方面优于现有的技术，并实现了精细合成和动作生成。

Sep, 2023

TM2T: 随机和分词建模用于生成 3D 人体动作和文本的互相作用

本文探讨了从文本生成 3D 全身运动的问题，并提出了运动令牌的使用方法，结合神经机器翻译模型进行任务的处理，通过实验数据对比，表明我们的方法在这两个任务上具有优越性。

Jul, 2022

重新审视基于 CLIP 的图像到视频知识传递的时间建模

本论文基于 CLIP 模型，提出了一种名为 STAN 的时空建模机制，用于将图像 - 文本预训练模型扩展到视频领域，并在视频文本检索和视频识别等多项任务中展现了其优越性。

Jan, 2023

LivePhoto：带有文本引导的实时图像动画与运动控制

通过 LivePhoto 系统，使用者可以通过文本描述来为感兴趣的图像添加动画效果，系统通过改进的生成器和设计的训练流程，实现了文本到视频的解码，进而实现了对视频的自定义。

Dec, 2023

视频文本对齐的强基准

通过建立一个简单而强大的基于 Transformer 的模型，本研究考虑了视频和文本在时间上的对齐问题，并通过考虑语音识别误差的减少、选择不同的视觉 - 文本骨干和将嘈杂的 ASR 转录转化成描述性步骤等关键因素，实现了在叙述对齐和步骤对应任务上明显超越现有技术的卓越性能。

Dec, 2023

CLIP2Video: 通过 Image CLIP 掌握视频文本检索

CLIP2Video 网络通过将图像语言预训练模型转移到视频文本检索，采用端到端方式，区别于领先的视频和语言学习方法的多模态交互，我们利用预训练的图像语言模型，进一步简化为两个具体阶段的框架，使其能够在相对较少的数据集上进行训练，并通过 Temporal Difference Block 和 Temporal Alignment Block 来提升多模态相关性，我们在 MSR-VTT，MSVD 和 VATEX 等主要文本到视频和视频到文本检索基准上实现了最新的检索准确性记录。

Jun, 2021

TEMOS: 从文本描述生成多样化的人类动作

本文介绍了使用文本描述生成多样的 3D 人类动作的方法，并提出了 TEMOS 框架，它是一种基于变分自编码器的文本条件生成模型，可以产生多种不同的人体动作，实验证明 TEMOS 框架在 KIT Motion-Language 基准测试中取得了显著的改进。

Apr, 2022

具有结构感知等变学习的强健 (可控) 表格到文本生成

提出一种基于自我注意力机制的等变学习框架，通过在单元格层面有效表达表格内容之间的关系，并保证模型对内容不变的结构变换具有鲁棒性以提高 table-to-text 生成模型在 ToTTo 和 HiTab 数据集上的性能。

May, 2022