Sep, 2024
COLLAGE:基于分层潜在扩散与语言模型的人机协作交互生成
COLLAGE: Collaborative Human-Agent Interaction Generation using
Hierarchical Latent Diffusion and Language Models
TL;DR本研究针对协作人机交互生成领域数据集不足的问题,提出了COLLAGE框架,利用大语言模型(LLM)和层次化运动特征向量量化变分自编码器(VQ-VAE)。我们的关键发现是,通过潜在空间中的扩散模型结合LLM生成的运动规划线索,可以实现更具控制和多样性的特定运动生成,推动了机器人、图形和计算机视觉等领域的复杂交互建模的新可能。