BriefGPT.xyz
Ask
alpha
关键词
zero-shot capacity
搜索结果 - 2
通过文本图像传播模型进行零样本视频编辑
一种名为 Ground-A-Video 的新型基于 groundings 的多属性视频编辑框架,通过引入跨帧门控注意力、调制交叉注意力和光流引导反转隐藏特征平滑,实现了无需训练的时间一致的多属性视频编辑,并在编辑准确度和帧一致性方面表现优于
→
PDF
9 months ago
多模态知识对齐与强化学习
本论文提出了一种名为 ESPER 的方法,将仅基于语言的零 - shot 模型扩展到未见过的多模态任务,如图像和音频字幕生成,采用强化学习来无需直接监督地将多模态输入与语言模型生成对齐,实验表明该方法胜过了基线和之前工作的新基准测试。
PDF
2 years ago
Prev
Next