关键词multimodal video generation
搜索结果 - 2
- 魔法化身:多模态化身生成与动画
MagicAvatar 是一种用于多模态视频生成和人体化身动画的框架,通过将动作明确分离为两个阶段:多模态到动作转换和动作到视频生成,在提供的人物图像的基础上能够实现简单的人物动画和根据第一阶段产生的具体动作实现特定身份的人物动画。
- CVPR通过多模态调节进行视频综合的展示和说明
使用多模态生成框架,结合文本和图像训练双向变压器等多重输入来预测离散视频表示,同时提供改进的样本视频代币和文本增广,以及支持分割掩码、绘图和部分遮挡图像等不同视觉模态,可以通过文本提示生成对应视频,并在四个数据集上取得了最新的生成结果。