层次化视觉语言表示的多任务学习

Dec, 2018

层次化视觉语言表示的多任务学习

Multi-task Learning of Hierarchical Vision-Language Representation

Duy-Kien Nguyen, Takayuki Okatani

TL;DR该研究提出了一种多任务学习的方法，将来自各种不同数据集的任务共享视觉语言表示。结果表明该方法在图像字幕检索、视觉问答和视觉定位方面比先前的单任务学习方法表现更好，同时通过可视化注意力图分析了学习到的分层表示。

Abstract

It is still challenging to build an ai system that can perform tasks that involve vision and language at human level. So far, researchers have singled out individual tasks separately, for each of which they have designed networks and trained them on its dedicated datasets. Although thi

ai system vision-language representation multi-task learning hierarchical representation visual attention

发现论文，激发创造

12 合 1：多任务视觉和语言表示学习

本篇文章通过开发一个大规模、多任务训练体系，研究了不同任务之间的相互关系，提出了一个单一模型，可以在视觉问题回答、基于标题的图像检索、引用表达和多模态验证等四个广泛的任务范畴下，同时取得以往 3 亿多参数内单一任务模型的总和，且性能提高了 2.05 个百分点，并进一步表明，从单一多任务模型微调任务特定模型会进一步提高性能。

Dec, 2019

对齐的图像 - 词表达提高跨视觉语言任务的归纳转移能力

本文研究视觉特征的表征方式，并探讨了通过将视觉识别任务和视觉问答任务各自对应的语言表示方式建立联系，以实现更好的跨任务数据迁移的方法。结果表明，这种方法比常规的多任务学习方法更有效，并且能够大幅提高在视觉识别任务和视觉问答任务上的准确率。

Apr, 2017

通过文本生成统一视觉语言任务

该研究提出了一个统一框架，通过相同的语言建模目标，在单个体系结构中学习不同的任务，实现视频图像理解、语言推理和标签生成等领域的应用。通过在多个基准测试中的表现，这种生成方法（在单个统一的体系结构下）显示出了与最先进的特定任务模型相当的性能，并且还显示了更好的推广能力和单个任务模型相似的多任务学习能力。

Feb, 2021

视觉 - 语言智能：任务、表示学习与大模型

这篇论文从时间的角度对视觉语言智能进行了全面的调研，总结了三个时期的发展，包括特定任务方法，视觉 - 语言预训练方法和通过大规模弱标签数据增强的更大模型，并讨论了未来的发展趋势.

Mar, 2022

视觉与语言研究整合趋势：任务、数据集和方法调查

本次调查聚焦于十项著名任务，介绍其问题形式、方法、现有数据集、评估措施，并与相应的最新方法进行比较。我们的工作超越早期的调查，既非任务特定的，也不仅针对一种类型的视觉内容，即图像或视频。此外，我们还提供了该研究领域的一些潜在未来方向，期望此次调查能激发革新性的思路和想法，以解决现有挑战并构建新的应用。

Jul, 2019

面向任务的多模态层次强化学习策略：视觉对话

通过多模态层次强化学习框架和状态适应技术，实现了语音和图像的目标驱动对话。在图像猜谜游戏中进行了实验，取得了良好的效果。

May, 2018

一个层次化多任务方法用于从语义任务中学习嵌入

本研究介绍了一种使用多任务学习方式训练的分层模型，在一组精心选择的语义任务上取得了最新领先的结果，包括命名实体识别、实体提及检测和关系提取，无需手工设计特征或使用外部 NLP 工具，同时在模型的底层引入归纳偏差，促使模型产生共享语义表示。

Nov, 2018

视觉与语言研究中的挑战与前景

本文对语言图像理解中人工智能评估的进展和局限进行了综述，并提出了解决方案。

Apr, 2019

视觉场景理解的多任务学习

研究多任务学习在计算机视觉中的应用，通过综述现有方法，提出几种方法处理多任务学习中的重要问题，并在各种基准测试中进行评估，进一步提升了多任务学习的状态。

Mar, 2022

异质人类中心任务间不相交的多任务学习

本文提出了一种可用于有效学习人类行为的交替定向优化方法，以利用现有的单任务数据集，同时改善分类和检索任务的性能表现。

Feb, 2018