全景图像翻译
基于扩散模型的个性化文本到图像(T2I)合成已经引起了最近研究的广泛关注,然而现有的方法主要集中在定制主题或风格上,忽视了全局几何的探索。本研究提出了一种集中于 360 度全景定制的方法,使用 T2I 扩散模型,它在本质上具有全局几何特性,通过精心制作的图像 - 文本配对数据集进行微调,最终采用 LoRA 进行训练。实验证明了我们定制的模型与所提出的 StitchDiffusion 相结合在生成高质量的 360 度全景图像方面的有效性。此外,我们的定制模型在产生未在微调数据集中见过的场景方面表现出卓越的泛化能力。
Oct, 2023
利用变形补丁嵌入(DPE)和变形 MLP(DMLP),并结合传输学习方法,将针孔相机图像的语义注释和 360 度环视视觉的语义注释结合起来,从而实现全景图像的稳健分割,并通过互补原型自适应实现无监督域自适应。在 Stanford2D3D 数据集中,与完全受监督的现有技术相比,我们的 Trans4PASS 与 MPA 保持可比的性能,而无需超过 1,400 个标记化全景图像。在室外 DensePASS 数据集中,我们打破了现有技术水平,使 mIoU 提高了 14.39%,将新标准设定为 56.38%。
Mar, 2022
基于扩散模型的 360 度全景图像生成任务的技术报告,提出了一种圆形混合策略,以实现几何连续性,同时提出了文本到 360 度全景图像和单图像到 360 度全景图像两个任务的模型
Nov, 2023
本论文提出了一种名为 Im2Pano3D 的卷积神经网络,该网络可以仅基于部分观察(<=50%),即 RGB-D 图像,为室内全景视图生成 3D 结构的稠密预测和语义标签的概率分布,其利用大规模合成和实际环境内部场景中学习到的强大的语境先验来实现。
Dec, 2017
本研究提出了一种基于 Transformer 的跨模态融合架构,用于弥合多模态融合与全景场景感知之间的差距,并使用失真感知模块来处理极端对象变形和全景失真,通过跨模态交互实现特征矫正和信息交换,最终将特征合并以传达双模态和三模态特征流的长程上下文,通过在三个室内全景数据集中四种不同模态类型的组合进行彻底测试,我们的技术在 Stanford2D3DS(RGB-HHA)上达到了 60.60% 的 mIoU 性能,Structured3D(RGB-D-N)上达到了 71.97% 的 mIoU 性能,Matterport3D(RGB-D)上达到了 35.92% 的 mIoU 性能。
Aug, 2023
通过在预训练的 StyleGAN2 模型上进行一系列的模型变换,我们提出了一种新的图像到图像 (I2I) 转换方法,并提出了一种反演方法,以在源领域和目标领域之间进行 I2I 翻译。定性和定量评估证明了该方法在图像质量、多样性和与输入和参考图像的语义相似性方面具有优越性能,与最先进的作品相比。
Oct, 2020
通过双分支扩散模型 PanFusion,从文本提示生成 360 度全景图像,并使用投影感知的独特交叉注意机制提供协作降噪过程中的最小畸变。
Apr, 2024
DeepI2I 为一种新的基于深度学习和层级特征的图像翻译方法,采用转移学习技术和适配器网络解决了高分辨率瓶颈和对小数据集性能较差的问题,在三个数据集上的实验结果表明可以显著提高多类别图像翻译的性能。
Nov, 2020
本文提出了一种名为 PanoSwin 的简单而有效的架构,用于学习具有 ERP 的全景表示。通过探索全景式位移窗口方案和新颖的俯仰注意力分别解决边界不连续和空间失真的挑战,并利用绝对位置嵌入和相对位置偏差来增强全景几何信息。同时,通过设计一种新颖的两阶段学习框架,从平面图像向全景图像进行知识转移,实验结果表明 PanoSwin 在全景理解方面具有有效性。
Aug, 2023
提出了一种基于深度学习的缝合模型,采用弱监督学习机制训练,实现对多个鱼眼图像的 360 度输出,通过色彩一致性校正、畸变校正和图像融合实现,其训练采用感知损失和 SSIM 损失函数,在两个真实的缝合数据集上进行了有效性验证。
Sep, 2022