Mar, 2024

MambaTalk:带选择性状态空间模型的高效整体手势合成

TL;DR表演合成是人机交互的重要领域,最近的研究基于扩散模型和注意力机制来改进表演合成,但由于计算复杂性较高,生成长且多样的序列仍然是一个挑战。我们探索使用状态空间模型来解决这个挑战,并实现了一种两阶段建模策略,并引入离散运动先验来提高表演质量。通过多模态集成,我们引入了 MambaTalk,提高了表演的多样性和韵律。广泛的实验表明我们的方法与最先进的模型相匹配或超越其性能。