- TEACH:针对 3D 人体的时间动作组合
利用 BABEL 动作文本集合,设计了一种基于 Transformer 的 TEACH 方法,能够根据自然语言描述生成符合语义的 3D 人体动作,实现由多个动作组成的时间动作构成。
- NL2GDPR: 从自然语言中自动生成符合 GDPR 规定的 Android 应用功能
NL2GDPR 是一种自动生成符合 GDPR 标准隐私政策的自然语言工具,它利用了百度认知计算实验室开发的信息提取工具 OIA,以保证隐私数据的准确识别,并且可在不需要编写复杂代码的情况下完成自动生成 GDPR 隐私政策的任务。
- MuLan: 音乐音频与自然语言的联合嵌入
MuLan 是一种新型的声学模型,通过将音乐音频直接链接到自由形式的文字注释,构建与各种音乐流派和文本样式兼容的音频 - 文本表示,具有真正的零样本功能,可用于传输学习、零样本音乐标记、音乐领域语言理解和跨模态检索应用等。
- ACL展现,不是叙述:示范优于描述用于基于任务的对话的结构指导
通过使用标记的对话示例,而非基于描述的自然语言,向 seq2seq 模型展示模式元素的语义来提供通用对话系统,并在零 - shot 泛化方面取得了最先进的效果。
- 基于上下文感知代码翻译的代码搜索
提出了一种新的上下文感知代码翻译技术,将代码片段翻译成自然语言描述,并使用单一词汇表为翻译和查询生成嵌入,名为 TranCS,实验证明其显著优于最先进技术。
- 基于描述的任务导向对话建模
本文介绍了一种基于自然语言描述的任务导向对话系统,并提出了一种简单而有效的基于描述的对话状态跟踪模型(D3ST),证明其在多个基准测试中具有更高的性能和数据效率。
- 轻量级生成对抗网络用于文本引导的图像操纵
我们提出了一种新颖的轻量化生成对抗网络,使用自然语言描述来进行有效的图像操作。我们提出了一种新的单词级别鉴别器,为生成器提供细粒度的单词级别训练反馈,以便训练一个轻量级生成器,该生成器具有少量参数,但仍然能够正确地关注图像的特定视觉属性,然 - CVPR基于文本指导的人物图像合成
本论文提出了一种新颖的方法,根据自然语言描述操纵人物图像的视觉外观和姿态,并进行了广泛的实验以证明该方法的有效性。
- CVPRText2Scene: 从文本描述生成组合场景
本文提出了 Text2Scene 模型,该模型从自然语言描述中生成各种形式的组成场景表示。与最近的其他工作不同,Text2Scene 不使用生成对抗网络(GANs),而是通过依次生成对象和它们的属性来学习生成场景,从而实现生成各种形式的场景 - EMNLP机会主义主动学习策略的学习
使用强化学习对物体检索任务进行优化的机器学习论文,包括主题如:主动学习,机会主动学习,监督模型,自然语言描述和强化学习。
- 视觉和语言的人物再识别
我们提出了一种新的人员再识别方法,使用图像和自然语言描述的联合视觉和语言模型,相比属性和 LSTM,使用自然语言描述和 CNN 可以显著提高标准 Re-ID 基准测试的性能。
- NIPS语言生成的对抗排名
本文提出了一种新颖的生成对抗网络 RankGAN,用于生成高质量的自然语言描述,其通过给定一个参考组来分析和排名一组人工编写和机器编写的句子,通过相对排名分数来评估数据集的质量以帮助学习更好的生成器,并使用策略梯度技术来优化 RankGAN - CVPR通过结合视觉和语言进行细粒度图像分类
该论文提出了一种结合视觉和语言的两流模型,通过深度卷积神经网络从原始图像信息中学习深度表示,并利用自然语言描述来编码区分子类的显著视觉方面,从而实现更好的分类精度。
- CVPRTGIF:一个新的动态图描述数据集与基准
本研究收集了 10 万个 GIF 图像,并基于众包技术获取了 120k 自然语言描述,以促进对动态图像的理解和自然语言描述生成技术的研究,该研究提供了一个理想的基准来评估视觉内容字幕的任务。研究还提供了基于最近邻算法、统计机器翻译和递归神经 - ICLR基于注意力机制的通过文字生成图片
提出一种基于自然语言描述生成图像的生成模型,采用微软 COCO 数据集进行训练,通过比较实验结果,证明该模型的生成图像质量更高且可以生成新颖的场景构图。
- 视觉 Madlibs: 填空图像生成和问答
本文介绍了一个包含 360,001 个自然语言描述的新数据集,名为 “Visual Madlibs dataset”,该数据集是通过自动产生的填空模板收集关于人和物体、外貌、活动和互动以及整体场景推理的有针对性的描述。本文提供了有关该数据集 - ACL利用丰富的词汇基础实现文本到三维场景生成
该论文介绍了如何使用自然语言描述来学习将文本场景映射到三维几何表示中的方法,并且使用基于规则的方法来生成三维场景的方法得到了改进。他们还引入了一种自动化评估度量来评估生成的 3D 场景。