BriefGPT.xyz
Ask
alpha
关键词
modality combination
搜索结果 - 2
图像任意:朝着始终合理推理和无需训练的多模态图像生成
ImgAny 是一种新颖的端到端多模态生成模型,可以模仿人类推理并生成高质量图像。该方法能够有效且灵活地接收来自语言、音频和视觉等七种不同的模态组合,并通过实体融合分支和属性融合分支整合多个输入模态,并利用预训练的稳定扩散模型生成图像。大量
→
PDF
5 months ago
使用 LoReTTa 训练传递性和交换性多模态 Transformer
LoReTTa 是一种自我监督框架,它通过自动学习不同模态之间的可转移和可交换特性,使得在具有三个匹配模态的情况下进行数据集的组合和整合变得简单。该方法不同于传统预训练方法,并在生成任务的复杂度和新的模态组合分类任务中展示出良好的性能。
PDF
a year ago
Prev
Next