- CVPRLocLLM: 大型语言模型通过人体关键点定位实现通用化
通过使用文本描述中的关键点线索,借助 LocLLM,将大规模语言模型(LLM)与图像和文本指令作为输入,输出所需的关键点坐标,有效扩展了现有的关键点定位模型的能力。
- 从文本描述中生成三维场景的人类动作
通过将任务分解为两个可管理的子问题:目标对象的语言准确性和以目标对象为中心的运动生成,本文提出了一种新的方法来生成给定人 - 场景交互文本描述的 3D 室内场景中的人体动作,实验表明我们的方法在运动质量方面优于基线并验证了我们的设计选择。
- 文本引导对视觉注意力的影响:数据库与模型
本文从主观和客观的角度对文本引导下的图像显著性进行广泛研究,并提出了一种考虑文本影响的文本引导显著性预测模型,该模型在各种评估指标上明显优于现有的显著性模型。
- 用大型语言模型叙述因果图
使用生成性人工智能从因果图生成文本描述的能力得到了实证调查,发现相对于基于事实的图形,因果文本描述在零 - shot 设置下更难生成,但使用少量示例进行模型训练与通过大型策划数据集进行微调获得类似的性能。
- DiffusionPhase: 频域中的运动扩散
本研究介绍一种基于学习的方法,用于从文本描述中生成高质量的人类运动序列,通过在频域上进行文本条件下的人体运动生成,实现了更多样化和平滑的运动序列生成。
- 基于聚类的图像 - 文本图匹配模型桥接领域差距
通过融合图像和文本的多模态图形表示,我们通过考虑图像和文本描述符之间内在的语义结构得到领域不变的关键嵌入,从而实现领域泛化问题中的域不变特征学习。我们的模型在 CUB-DG 和 DomainBed 等大规模公共数据集上实验,取得了与或更好于 - AvatarVerse: 高质量 & 稳定的 3D 角色创建系统
从高度定制的文本描述和姿势指导中创建富有表达力、多样化和高质量的 3D 头像是一项具有挑战性的任务。我们提出了 AvatarVerse,一个稳定的流水线,可以仅仅通过文本描述和姿势指导生成富有表达力和高质量的 3D 头像。
- 从文本中合成艺术电影化图像
我们介绍了一种全自动的艺术电影画面生成方法,通过从文本描述中创建电影画面,尤其是在提示中涉及想象元素和艺术风格时,具有挑战性,因为这些图像的语义和动作的解释具有复杂性。
- 利用去噪实现拼贴,修复和和谐化:使用预训练的扩散模型进行主题驱动的图像编辑
本研究提出了一种名为 PhD 的框架,它利用样例图像和文本描述来指定用户意图,通过对生成或编辑的图像进行插入、修补和协调来保证其视觉一致性,并通过实验验证其在主题驱动的图像编辑和基于参考主题的文本驱动场景生成方面均达到了最先进的性能。
- AlteredAvatar: 快速风格适应的动态 3D 头像造型
通过元学习方法,将基于大量样本的前馈网络方法和个性化优化方法结合的 AlteredAvatar 方法,实现基于文本描述的新颖样式快速应用于动态 3D 头像的快速样式化。
- 使用图像、文本和参数数据的多模态机器学习进行车辆评级预测
该研究提出了一种基于多模式学习的汽车评级预测方法,通过同时学习汽车参数规格、文本描述和图像来预测五个汽车评级分数。比较多模式和单模式模型的表现,发现多模式模型的解释能力比单模式模型高 4%-12%。
- EMNLP理解语言空间中社交媒体的跨模态话语
本文研究了文本和图像相结合在社交媒体中的多媒体传播方式,提出了交叉模态话语的新概念,通过五个标签来表述图像和文本之间的关联,验证了通过多头注意力与字幕的多媒体编码器能够达到最先进的结果。
- 文本到艺术图像生成
通过神经网络,从文字描述生成一张与特定风格和流派匹配的艺术图片,为手残人士提供一种表达思想和创造的途径。
- 利用大型语言模型预测人类相似性评价
利用语言模型和在线招募,提出了一种基于文本描述的高效通用程序,以预测相似度判断,其数量只随刺激物数量线性增长,可极大减少数据需求,且在六个自然图像数据集上的结果优于基于视觉信息的先前方法。
- 跨模态视频文字检索的记忆增强嵌入学习
本研究提出了一种新颖的记忆增强嵌入学习(MEEL)方法,构建了两种记忆模块,交叉模态记忆模块和文本中心记忆模块,用于跨模态视频文本检索任务,解决了局部负样本和文本描述多样性的问题。在 MSR-VTT 和 VATEX 两个基准数据集上进行的实 - CVPR基于生成对抗网络的噪声文本零样本学习方法
利用生成对抗网络 (GANs) 想象从文本描述中无法见到的类别,生成目标类别的视觉特征,附加伪数据,使得零样本学习自然地转换为传统的分类问题,并提出视觉中心正则化以保持生成特征的跨类别区分能力。实验表明,该方法在基于文本的零样本学习的最大可