May, 2024

SATO: 稳定的文本到动作框架

TL;DR研究发现了文本到动作模型的重要问题,并建立了不稳定的模型输出与文本编码模块的注意力模式之间的明确联系。因此,引入了一个稳定的文本到动作框架(SATO),其中包括稳定的注意力、稳定的预测和平衡准确性和稳健性之间的模块。验证模型的稳定性时,引入了一个基于 HumanML3D 和 KIT-ML 的新的文本同义扰动数据集,结果表明 SATO 在对同义词和轻微扰动的稳定性方面明显优于其他模型,同时保持高准确性表现。