FaceGPT:自监督学习关于 3D 人脸的对话
PoseGPT 是一个框架,利用大型语言模型(LLMs)从图像或文本描述中理解和推理出 3D 人体姿势。它通过嵌入 SMPL 姿势作为多模态 LLM 中的独立信号标记来解决传统人体姿势估计方法的局限性,不仅简化了姿势预测,而且赋予了 LLMs 在推理人体姿势方面应用它们的世界知识的能力,从而在姿势估计上进行推理,创造了两项先进任务:姿势的假设生成和姿势估计的推理。PoseGPT 在这些新提出的任务上优于现有的多模态 LLMs 和特定任务的方法,并开辟了人体姿势分析的新方向。
Nov, 2023
介绍了基于视觉编码器与大型语言模型相结合的 Video-ChatGPT 模型,用于理解和生成关于视频的人类对话,并介绍了使用手动和半自动管道获得的新数据集,可用于训练和评估基于视频的对话模型,并在定量评估框架下分析了该模型的优劣。
Jun, 2023
本研究提出自监督学习的方法,使用姿势引导网络 (PGN) 进行单眼 3D 人脸重建,并通过结合参数模型的学习和数据驱动的学习技术,从完全标记的 3D 地标和无限制的野外面部图像中学习。通过使用包含同一人物多帧嵌入的面部几何信息的自监督学习方案,缓解了从单个图像回归 3D 面部几何的不适定性。在 AFLW2000-3D、Florence 和 FaceWarehouse 数据集上进行了严格评估,并表明我们的方法在所有指标上均优于最先进技术。
Oct, 2020
基于 3D-GPT 的指令驱动的 3D 建模框架,利用语言模型实现了高效的自动内容创作,简化初始场景描述并从文本中提取参数值,与 3D 软件无缝集成,为未来场景生成和动画的进一步发展提供了基础。
Oct, 2023
文本向视觉组成件的演变有助于人们的日常生活,计算机视觉模型包括多模态能力,最近的研究关注于基于明确对象的图片检测和分类,然而与问题不匹配的算法可能导致不良结果,为了应对这个挑战,我们提出了统一的 VisionGPT-3D 框架来巩固最先进的视觉模型并促进面向视觉的人工智能的发展。
Mar, 2024
利用多帧视频自我监督训练深度网络,学习面部身份模型并同时重建 3D 面部,采用新的多帧一致性损失函数使得 consistent shape 和 appearance 尽量减小深度不确定性,从而实现单目和多帧重建。
Dec, 2018
通过引入文本条件,该论文提出了一种名为 TG-3DFace 的文本引导的 3D 人脸生成方法,利用全局对比学习和细粒度对齐模块两种跨模态对齐技术,实现了更逼真和语义一致的纹理生成。
Aug, 2023
本研究提出了一种 3D 医学图像的方法 —— 生成式文本引导 3D 视觉语言预训练。研究在 Computed Tomography (CT)、Magnetic Resonance Imaging (MRI) 和电子显微镜 (EM) 图像数据上进行了验证,结果表明该方法在医学图像分割任务中的效果优异。
Jun, 2023
我们提出了一种从图像中学习具有人物特定的可动画化角色模型的方法,旨在解决面部表情追踪失败的问题,并实现高保真度的图像合成。
Nov, 2023
本论文研究了一种基于 GPT 框架的新型深度学习模型 Visual ChatGPT 在遥感领域图像处理中的应用,成功展示了该模型生成图像文本描述、进行边缘检测和拟合直线等的能力,但也揭示了该模型在遥感图像处理中的局限性和挑战。研究者相信该模型的应用在未来有望将遥感图像处理转变为便利与实际应用机会并存的领域。
Apr, 2023