关键词cross-modal capabilities
搜索结果 - 2
- CVPR文本到图像扩散模型是优秀的素描照片匹配工具
这篇论文首次探索了用于零样本基于草图的图像检索的文本到图像扩散模型,发现其能够无缝地弥合草图与照片之间的差距,利用交叉模态能力和形状倾向性,通过我们的初步研究得到验证。为了有效利用预训练的扩散模型,我们引入了一种简单而有效的策略,着重于两个 - 采用非成对数据实现大型语言模型的通用语音能力
通过扩展 instruction-tuned Llama-2 模型的同时保持 LLM 的广泛能力范围,本研究提出了一种具备端到端通用语音处理和推理能力的模型。该模型可以使用音频提示代替文本进行对话,并且具备跨模态的能力,例如语音问答、语音翻