BriefGPT.xyz
大模型
Ask
alpha
关键词
alignment modules
搜索结果 - 4
Vivid-ZOO: 多视图视频生成与扩散模型
提出了一种基于扩散模型的新方法,从文本生成以动态三维物体为中心的高质量多视图视频,通过将问题分解为视点空间和时间组件,并引入对齐模块来保证生成的多视图视频的一致性和连贯性,同时解决了二维和多视图数据之间的领域差异。
PDF
22 days ago
LG-VQ:语言导向的代码本学习
本文提出了一种新颖的语言引导的码书学习框架 (LG-VQ),旨在学习与文本对齐的码书,以提高多模态下游任务的性能。实验结果表明,我们的方法在重构和各种多模态下游任务上取得了优越的性能。
PDF
a month ago
无配对多视角聚类中的可靠视角指导
该研究专注于非配对多视图聚类问题,提出了一种可靠视图引导的方法来解决跨视图聚类中的不确定聚类结构和样本配对关系不确定的问题,并通过对齐模块和紧凑性模块进一步优化聚类效果,实验证明该方法的优越性。
PDF
2 months ago
CVPR
跨领域文档目标检测:基准套件和方法
文档对象检测(DOD)是将文档页面图像分解成高级语义区域(例如,图形、表格、段落)的基础,但在跨域 DOD 中存在挑战,本文旨在建立 a 基准套件以评估跨域 DOD 模型训练和提出方法,通过结合三个新的对齐模块,如特征金字塔对齐模块(FPA
→
PDF
4 years ago
Prev
Next