BriefGPT.xyz
大模型
Ask
alpha
关键词
visual-semantic embedding space
搜索结果 - 3
ECCV
Open-Edit:使用开放词汇说明的开放领域图像编辑
提出了 Open-Edit 算法,是一种处理开放域图像操作的新方法,采用基于文本图像翻译和生成的方式来操作图像,通过结构保持的图像解码器,调整图像特征映射来生成所需的操作图像。该方法在对开放词汇的颜色、纹理和高级特征进行处理方面取得了良好的
→
PDF
4 years ago
ACL
基于伪可视中心词的无监督多模态神经机器翻译
本研究探讨如何利用视觉内容实现无监督多模态机器翻译领域的降歧和提升潜空间的对齐度。该模型采用多模态反向翻译,具备伪视觉枢轴功能,实现了多语言视觉 - 语义嵌入空间学习和视觉轴描述补充弱监督。实验证明该模型显著超越了最先进的方法,并能在测试时
→
PDF
4 years ago
EMNLP
基于多头注意力的多元化地位学习跨语言多模态表示
本文提出了一种基于视觉物体检测和不同文本语义的多语言多模态表示的模型,采用多头注意力机制对两种语言的文本语义和视觉对象进行细粒度对齐,从而学习到更好的视觉 - 语义嵌入空间,并在多个任务上展现了比其他方法更显著的性能提升。
PDF
5 years ago
Prev
Next