- 基于先验知识引导的文本 - 三维生成模型
本文提出一种新颖的文本生成 3D 模型方法(T2TD),通过引入相关形状或文本信息作为先验知识来提高 3D 模型生成模型的性能,并采用多层变压器结构逐步融合相关形状和文本信息,证明了该方法在 3D 模型生成质量上显着提高,且表现优于现有文本 - 使用文本描述进行图像的多模态着色
该研究提出了一种基于深度网络和文字描述的图像上色方法,通过对象分割和融合模型实现对包含不同颜色物体的真实场景的颜色一致性上色,性能指标优于现有的上色技术。
- 文本引导的蛋白质设计框架
提出了一种多模态框架 ProteinDT,旨在改进蛋白设计。通过结合文本信息和蛋白表征,该框架在蛋白性质预测和生成方面取得了令人满意的结果,并构建了一个大型数据集 SwissProtCLAP 来训练模型。
- WWWCapEnrich: 通过跨模态预训练知识为 Web 图像增加标题语义
本文提出了一种基于 Vision-Language Pre-training 模型的插拔式框架 CapEnrich,通过自动数据构建策略和可学习 / 模板提示策略,为万维网上的无标签图片生成更加完整,丰富和具备语义的文本描述,从而将其应用于 - T2CI-GAN:使用生成对抗网络进行文本到压缩图像的生成
本文提出一种基于 DCGAN 的压缩图像生成方法,旨在实现对文本描述的压缩视觉数据直接生成,并在压缩形式下实现了最先进的性能。
- ECCVTEMOS: 从文本描述生成多样化的人类动作
本文介绍了使用文本描述生成多样的 3D 人类动作的方法,并提出了 TEMOS 框架,它是一种基于变分自编码器的文本条件生成模型,可以产生多种不同的人体动作,实验证明 TEMOS 框架在 KIT Motion-Language 基准测试中取得 - EMNLPZEST: 从文本描述中使用文本相似度和视觉摘要实现零样本学习
本研究关注零样本学习的视觉问题,并提出了使用基于文本描述的分类器,该分类器关注从图像描述中提取最相关的信息并将视觉特征与文本进行匹配,通过基于关注机制的简单模型,利用物种之间的相似度和文本的可视摘要来提高零样本视觉对象识别的效果。
- ICLRBabyAI++: 初探基于实体的语言学习
该研究针对强化学习中的新环境和动态环境,通过使用描述性文本探究使用教育性文本是否有助于代理在这些环境下的泛化,并通过 BabyAI++ 开发了一种基于视觉语言学习的新方法,实验结果表明,使用描述性文本可以提高 RL 代理在不同动态环境下的泛 - ICCVCap2Det: 学习放大弱标注的图像对象检测
使用文本描述来训练文本分类器,并从中获取足够的信息进行目标实例的弱监督检测,从而实现对于大量自由上传图像信息数据的有效物体定位。
- KG-GAN: 基于知识的生成对抗网络
本研究通过知识引导的生成对抗网络模型提出了一种将领域知识融入生成对抗网络框架中生成未见过的花卉种类的方法,并且在实验中证明了这种方法的有效性。
- ACL哈利・波特与自然语言动作预测挑战
本文讨论了利用文本描述来预测活动的挑战,以哈利・波特系列小说中的咒语作为抽象活动的关键词,并使用 LSTM 方法来预测下一个咒语。
- Chart-Text: 全自动图表图像描述器
本文提出了一种名为 Chart-Text 的新颖的、可完全自动化生成图表图像文本描述的系统,该系统对 PNG 格式的图表图像进行分类、检测、分类标签和文本,最终使用特定的图像处理算法从图表图像中提取相关信息,并取得了 99.72%的图表分类 - KDD零样本人体动作识别的替代语义表示
探索了零样本人类动作识别的两种替代语义表示 —— 人类动作的文本描述和从与人类动作相关的静止图像中提取的深度特征,结果表明我们提出的基于文本和图像的语义表示显著优于传统属性和向量模型,特别是图像语义表示,即使每个类别只是从少量图像中提取的。
- ACL学习技术文档中的语义关联
本文通过挖掘技术文档中的文本 - 表达式对来训练一个基于语义分析的模型,以学习高级文本描述和目标文档中表现函数或代码模板的形式表示之间的翻译对应关系,并在 16 个新颖数据集上报告了新的基线结果,包括 7 种自然语言的九种流行编程语言的标准 - 编写分类器:从非结构化文本预测视觉分类器
本篇研究提出并探究了四种基于回归和领域转移算法的方法以及在分布语义下基于内核函数的文本描述预测可视化分级任务,并在 CU Birds 和 Flower 数据集上成功预测了可视化分类器。
- 基于帧和视频级特征以及视觉内容分类的循环网络视频字幕生成
本文介绍了使用循环神经网络(RNN)生成短视频文本描述的系统,利用静态图像特征和视频专属特征的 RNN,我们研究了视觉内容分类器作为额外信息源的实用性,并通过实验结果证明了密集轨迹视频特征和内容分类器输出的利用,可以比单独利用它们表现更好。
- ICCV使用文本描述预测深度零样本卷积神经网络
本文提出了一种新的模型,使用文字特征来预测深度卷积神经网络(CNN)中卷积和全连接层的输出权重,以分类看不见的类别,同时利用 CNN 架构在不同层面学习特征,从而避免了为图像定义语义属性的问题,并且自动生成了每个视觉类别的伪属性词列表。结果