ChatAnything: LLM 增强人物的 Facetime 聊天
本文提出了一种从单个面部图像与仅含音频的输入生成富有表现力的谈话头像的方法,并能以单一的统一框架中合成艺术绘画、素描、2D 卡通角色、日本漫画和风格化漫画等图像,并通过定量和定性方法的评估以及用户研究,证明其比现有技术的生成头像的质量显着更高。
Apr, 2020
本文介绍了一种由音频信号驱动的、生成具有个性化的逼真说话动画的活体系统,包括从音频信号中提取深度音频特征,分析面部动态和姿态,并在最终的阶段生成逼真的面部细节。
Sep, 2021
ChatHuman 是一个基于语言驱动的人类理解系统,通过结合和整合多种不同方法的技能,利用大型语言模型(LLM)选择和使用各种现有工具来解决 3D 人类相关问题,并通过学术出版物指导应用 3D 人类相关工具、生成上下文学习示例以处理新工具以及辨别和整合工具结果以提升对 3D 人类理解的能力。与现有模型相比,在工具选择准确性和多个 3D 人类相关任务的性能方面,ChatHuman 表现出更好的性能,是将多样方法整合为单一强大的 3D 人类推理系统的一步。
May, 2024
论文旨在综合具有可控面部动作的谈话面孔。通过建立规范空间和多模态运动空间,提出正交性约束来分离身份和运动,从而实现生成外观自然、具有完全可控面部属性和准确的唇部同步的谈话面孔。实验证明,我们的方法在视觉质量和唇同步得分方面均取得了最先进的结果。这是第一个开发出在生成的视频中准确地展示包括唇部,头部姿势和眼动等所有目标面部运动的谈话面孔生成框架,没有超越 RGB 视频与音频的任何附加监督。
Apr, 2023
本文提出了一种新模型,通过利用自监督学习技术和三维人脸模型中的标志点来对运动进行建模,并引入了新的运动感知多尺度特征对齐模块来进行视频合成,从而实现了对头部姿态和表情的自由控制,并且得到了最优质的合成音频视频输出。
Apr, 2023
大型语言模型(LLMs)能够理解人类指令并生成高质量的文本,使它们能够模拟人类行为并超越简单的复制。本研究介绍了可定制的对话代理框架,利用 LLMs 模拟真实世界中可以根据用户偏好自由定制的角色。提出了 SimsConv 数据集和 SimsChat 对话代理,模拟不同情景下角色的生活经历和特定情感的专题交互。实验证明该框架取得了令人满意的性能,并为未来构建更好的人类模拟提供了有益的指导。
Jun, 2024
通过 GenAdapter 将视觉表示能力集成到 ChatIllusion 中,ChatIllusion 是一种高级生成多模态大语言模型,结合了大语言模型的能力和视觉理解能力,能够为用户提供多样且高质量的图像输出,同时保持语义一致性和对话控制性,极大提升用户的体验质量。
Nov, 2023
本文利用大型语言模型(LLM)通过个性化对话生成,基于个人特点和人格特质创建了一个合成对话数据集,从而证明了个性化对话模型和与 PersonaChat 相比的表现优势。
Jan, 2024
在计算机视觉领域,生成逼真的说话脸部是一个有趣且长期存在的课题。尽管已经取得了显著的进展,但是生成具有个性化细节的高质量动态脸部仍然具有挑战性。本文提出了一种简单、通用且灵活的神经画廊生成框架 Myportrait,在单目视频中加入个性化先验和三维人脸形变空间的可变先验,在新的可控参数下生成个性化细节。我们的框架支持基于视频和基于音频的面部动画,给定单个人的单目视频。通过测试数据是否发送到训练中,我们的方法提供了实时在线版本和高质量离线版本。广泛的实验证明了我们方法在各个指标上优于最先进方法。代码将公开发布。
Dec, 2023
大语言模型为生成会话代理带来了重大进展,使得在各种话题上实现无缝、情境相关的对话成为可能。然而,现有的以语言模型为驱动的对话代理拥有固定的个性和功能,限制了它们适应个人用户需求的能力。通过创建具有特定专长或特点的个性化代理人物,可以解决这个问题。尽管如此,我们对人们如何定制和与代理人物互动缺乏了解。在这项研究中,我们调查了用户如何定制代理人物以及其对互动质量、多样性和动力的影响。为此,我们开发了 CloChat,这是一个支持在大语言模型中轻松准确地定制代理人物的接口。我们进行了一项研究,比较了参与者如何与 CloChat 和 ChatGPT 互动。结果表明,参与者与定制代理人物建立了情感纽带,进行了更加动态的对话,并表现出对维持互动的兴趣。这些发现为未来使用大语言模型的对话代理系统的设计提供了启示。
Feb, 2024