T2S-GPT：基于文本的自回归手语生成的动态向量量化

ACLJun, 2024

T2S-GPT：基于文本的自回归手语生成的动态向量量化

T2S-GPT: Dynamic Vector Quantization for Autoregressive Sign Language Production from Text

Aoxiong Yin, Haoyuan Li, Kai Shen, Siliang Tang, Yueting Zhuang

TL;DR本文提出了一种两阶段手语生成 (SLP) 方法，通过首先将手语序列编码为离散编码，然后基于学习到的码本从文本中自回归生成手语。为解决现有向量量化方法中固定长度编码忽视手语中信息密度不均匀的问题，我们提出了一种新颖的动态向量量化 (DVA-VAE) 模型，该模型可以根据手语中的信息密度动态调整编码长度以实现准确而紧凑的编码。随后，一种类似于 GPT 的模型通过学习从口语文本生成编码序列及其对应的持续时间。对 PHOENIX14T 数据集进行了大量实验证明了我们提出的方法的有效性。为了推动手语研究，我们提出了一个新的德语手语大规模数据集 PHOENIX-News，该数据集包含 486 小时的手语视频，音频及转录文本。对 PHOENIX-News 的实验分析表明，增加训练数据的规模可以进一步提高我们模型的性能。项目主页详见此链接。

Abstract

In this work, we propose a two-stage sign language production (SLP) paradigm that first encodes sign language sequences into discrete codes and then autoregressively generates sign language from text based on the learned codebook. However, existing vector quantization (VQ) methods are

sign language production dynamic vector quantization gpt-like model phoenix14t dataset phoenix-news dataset

发现论文，激发创造

基于数据驱动的手语表达方式

将连续动作生成问题转化为离散序列生成问题的创新解决方案，利用矢量量化方法以及转换器，将口语文本翻译为动作序列，并通过签名拼接方法有效地组合标记，实验证明该方法胜过以往方法，使 BLEU-1 回译得分提高了 72%。

Apr, 2024

自回归手语制作：基于离散表示的无词汇化方法

该论文介绍了一种利用向量量化从手语姿势序列中得出离散表示的手语矢量量化网络的新方法，该方法支持高级解码方法，并整合了潜在级别的对齐以增强语言的一致性，并通过综合评估证明了该方法优于之前的手语生产方法的卓越性能，并突出了反向转译和 Fréchet 手势距离作为评估指标的可靠性

Sep, 2023

Sign2GPT：利用大型语言模型进行无术语手语翻译

利用大规模预训练视觉和语言模型通过轻量级适配器实现无语言标注的手语翻译的新型框架 Sign2GPT，在两个公共基准手语翻译数据集上评估并取得明显优于现有技术的无语言标注翻译性能提升。

May, 2024

朝向准确的图像编码：动态向量量化改进自回归图像生成

提出了一种新的两阶段框架，它使用动态量化 VAE 将图像区域编码为基于其信息密度的可变长度代码，以实现更准确，更紧凑的代码表示，从而解决了现有 VQ 基于自回归模型的固定长度编码问题，该方法通过一种新的堆叠 Transformer 架构和共享内容、独立位置输入层设计，从粗粒度到细粒度生成图像。

May, 2023

基于条件变分自动编码器的手语翻译与跨模态对齐

为了解决手语翻译中视觉和文本之间的跨模态对齐问题，本研究提出了一种基于条件变分自编码器的新型框架（CV-SLT），通过引入两个 KL 散度来促进手语视频和口语文本之间的直接且充分的跨模态对齐。实验证明，该框架在公共数据集上取得了新的最先进结果，并显著减轻了跨模态表示差异。

Dec, 2023

使用隐藏动态变换器进行手语产生

经过改进，我们开发了一种新方法来制作高质量的手语视频，不需要使用人类姿势作为中间步骤。与之前的方法相比，我们的模型在两个手语数据集上表现更好。

Dec, 2023

使用单语数据改进手语翻译

提出一种转录目标单语言数据为其伪吉祥语的简单高效的规则转换方法，从而增强 SLT 翻译的自动化，实验结果表明，该方法能够显着提高 SLT 的性能，尤其是在 PHEONIX-WEATHER 2014T 和 ASLG-PC12 等两个 SLT 基准数据集上实现了最新成果。

Apr, 2023

转变表征：探究神经手语语言表征

本文旨在将自然语言处理技术应用于 Sign Language Production 管道的第一步，介绍了一种基于音素表示而非基于 gloss 表示的 T2H 翻译方法，并使用 HamNoSys 提取标志的手型作为额外的监督来进一步提高性能，最终在两个数据集上均取得了 BLEU-4 得分的最佳表现。

Sep, 2022

一种基于向量量化的方法用于实际自然语言转音频合成

使用真实世界的语音数据训练了一个新的 MQTTS 系统，其利用了多个代码组内的学习离散代码解决了 mel-spectrogram 基础的 autoregressive 模型中的训练和推理之间的不匹配，提高了语音合成的质量，并在客观和主观指标上显示出优异性。

Feb, 2023

T2M-GPT: 使用离散表示生成基于文本描述的人体动作

本文研究了基于 VQ-VAE 和 GPT 的人体运动生成的条件生成框架，并表明了通过常用的训练配方（EMA 和 Code Reset），我们可以获得高质量的离散表示。此外，我们在训练期间采用了一种简单的损坏策略来缓解训练 - 测试偏差，并在 HumanML3D 数据集上表现出比竞争方法更好的性能。

Jan, 2023