BriefGPT.xyz
大模型
Ask
alpha
关键词
multimodal instruction
搜索结果 - 2
交互式视频:以用户为中心的可控视频生成与多模态协同指导
我们介绍了 InteractiveVideo,这是一个以用户为中心的视频生成框架,通过动态交互允许用户通过各种直观的机制在整个生成过程中指导生成模型,例如文本,图片提示,绘画,拖放等。我们提出了一种协同多模态指导机制,旨在将用户的多模态指令
→
PDF
5 months ago
多轮交替多模态指令跟随
介绍了 TextBind,这是一个几乎无需标注的框架,可以为较大的语言模型赋予多轮交错的多模态指令跟随能力,通过仅使用图像 - 标题对生成多轮多模态指令 - 回应对话,从而旨在推动多模态指令跟随领域的未来研究。
PDF
10 months ago
Prev
Next