FaceGPT：自监督学习关于 3D 人脸的对话

Jun, 2024

FaceGPT：自监督学习关于 3D 人脸的对话

FaceGPT: Self-supervised Learning to Chat about 3D Human Faces

PDF

Haoran Wang, Mohit Mendiratta, Christian Theobalt, Adam Kortylewski

TL;DRFaceGPT 是一个自我监督学习框架，用于从图像和文本中推断 3D 人脸的大视觉 - 语言模型（VLMs）的研究论文。

Abstract

We introduce facegpt, a self-supervised learning framework for Large vision-language models (VLMs) to reason about →

facegpt self-supervised learning 3d human faces vision-language models 3d face reconstruction

发现论文，激发创造

PoseGPT：关于三维人体姿势的对话

PoseGPT 是一个框架，利用大型语言模型（LLMs）从图像或文本描述中理解和推理出 3D 人体姿势。它通过嵌入 SMPL 姿势作为多模态 LLM 中的独立信号标记来解决传统人体姿势估计方法的局限性，不仅简化了姿势预测，而且赋予了 LLMs 在推理人体姿势方面应用它们的世界知识的能力，从而在姿势估计上进行推理，创造了两项先进任务：姿势的假设生成和姿势估计的推理。PoseGPT 在这些新提出的任务上优于现有的多模态 LLMs 和特定任务的方法，并开辟了人体姿势分析的新方向。

Nov, 2023

Video-ChatGPT: 通过大型视觉和语言模型实现详细视频理解

介绍了基于视觉编码器与大型语言模型相结合的 Video-ChatGPT 模型，用于理解和生成关于视频的人类对话，并介绍了使用手动和半自动管道获得的新数据集，可用于训练和评估基于视频的对话模型，并在定量评估框架下分析了该模型的优劣。

Jun, 2023

使用位置引导网络学习 3D 面部重建

本研究提出自监督学习的方法，使用姿势引导网络 (PGN) 进行单眼 3D 人脸重建，并通过结合参数模型的学习和数据驱动的学习技术，从完全标记的 3D 地标和无限制的野外面部图像中学习。通过使用包含同一人物多帧嵌入的面部几何信息的自监督学习方案，缓解了从单个图像回归 3D 面部几何的不适定性。在 AFLW2000-3D、Florence 和 FaceWarehouse 数据集上进行了严格评估，并表明我们的方法在所有指标上均优于最先进技术。

Oct, 2020

3D-GPT：利用大型语言模型进行程序化 3D 建模

基于 3D-GPT 的指令驱动的 3D 建模框架，利用语言模型实现了高效的自动内容创作，简化初始场景描述并从文本中提取参数值，与 3D 软件无缝集成，为未来场景生成和动画的进一步发展提供了基础。

Oct, 2023

VisionGPT-3D：增强 3D 视觉理解的综合多模态代理

文本向视觉组成件的演变有助于人们的日常生活，计算机视觉模型包括多模态能力，最近的研究关注于基于明确对象的图片检测和分类，然而与问题不匹配的算法可能导致不良结果，为了应对这个挑战，我们提出了统一的 VisionGPT-3D 框架来巩固最先进的视觉模型并促进面向视觉的人工智能的发展。

Mar, 2024

从视频中学习人脸模型

利用多帧视频自我监督训练深度网络，学习面部身份模型并同时重建 3D 面部，采用新的多帧一致性损失函数使得 consistent shape 和 appearance 尽量减小深度不确定性，从而实现单目和多帧重建。

Dec, 2018

高保真文本引导的 3D 人脸生成与操作仅通过图像

通过引入文本条件，该论文提出了一种名为 TG-3DFace 的文本引导的 3D 人脸生成方法，利用全局对比学习和细粒度对齐模块两种跨模态对齐技术，实现了更逼真和语义一致的纹理生成。

Aug, 2023

基于生成式文本引导的三维视觉语言预训练，用于统一医学图像分割

本研究提出了一种 3D 医学图像的方法 —— 生成式文本引导 3D 视觉语言预训练。研究在 Computed Tomography (CT)、Magnetic Resonance Imaging (MRI) 和电子显微镜 (EM) 图像数据上进行了验证，结果表明该方法在医学图像分割任务中的效果优异。

Jun, 2023

GAN-Avatar: 可控个性化基于 GAN 的人头图像生成器

我们提出了一种从图像中学习具有人物特定的可动画化角色模型的方法，旨在解决面部表情追踪失败的问题，并实现高保真度的图像合成。

Nov, 2023

视觉 ChatGPT 在遥感中的潜力

本论文研究了一种基于 GPT 框架的新型深度学习模型 Visual ChatGPT 在遥感领域图像处理中的应用，成功展示了该模型生成图像文本描述、进行边缘检测和拟合直线等的能力，但也揭示了该模型在遥感图像处理中的局限性和挑战。研究者相信该模型的应用在未来有望将遥感图像处理转变为便利与实际应用机会并存的领域。

Apr, 2023