学得越多未必越好：视觉与语言任务中的知识可迁移性

Aug, 2022

学得越多未必越好：视觉与语言任务中的知识可迁移性

Learning More May Not Be Better: Knowledge Transferability in Vision and Language Tasks

Tianwei Chen, Noa Garcia, Mayu Otani, Chenhui Chu, Yuta Nakashima...

TL;DR研究在多模态任务中知识转移性，以探讨是否将不同任务的数据集合并来训练视觉 - 语言模型一定能提高它们的整体表现。通过对 12 项视觉 - 语言任务进行数百次交叉实验分析，发现不是所有的知识都能有益于相关任务，在同一组任务中却容易相互改进，而数据集的大小和预训练阶段也对知识转移的效果有重要影响。

Abstract

Is more data always better to train vision-and-language models? We study knowledge transferability in multi-modal tasks. The current tende

multi-modal tasks knowledge transferability vision-and-language models dataset size pre-training stage

发现论文，激发创造

利用视觉知识在语言任务中：跨模态知识转移的中间预训练的实证研究

本研究探索了将视觉知识整合到语言模型中以填补现有文本信息中缺失的相关性和物体属性信息的空白。研究发现，视觉知识传递可以在低资源和完全监督设置下均有效提高预先训练的语言模型在需要视觉知识的下游任务中的性能。

Mar, 2022

从视觉到语言的知识迁移：如何实现和衡量？

探究使用视觉数据来补充大型语言模型知识的方法，并提出一种基于 memory colors 任务查询和模型训练数据过滤的方法，以用于测量模型的视觉知识传输能力，并介绍了一种涉及视觉想象步骤的模型架构，并发现我们的方法可以成功用于衡量模型的视觉知识传输能力，而我们的新型模型架构在单模态环境中利用多模态知识具有良好的结果。

Sep, 2021

12 合 1：多任务视觉和语言表示学习

本篇文章通过开发一个大规模、多任务训练体系，研究了不同任务之间的相互关系，提出了一个单一模型，可以在视觉问题回答、基于标题的图像检索、引用表达和多模态验证等四个广泛的任务范畴下，同时取得以往 3 亿多参数内单一任务模型的总和，且性能提高了 2.05 个百分点，并进一步表明，从单一多任务模型微调任务特定模型会进一步提高性能。

Dec, 2019

探索和预测 NLP 任务的可转移性

本文旨在探究将自然语言处理大规模语言模型 fine-tuning 应用于其他任务是否有效，通过在三大问题领域（文本分类、问题回答、序列标注）的 33 个 NLP 任务上的数据验证，结果显示 transfer learning 在数据稀缺情况下更为有效，在源任务数据较少或与目标任务差异较大的情况下仍能提高性能，同时提出了可以预测给定目标任务最具可转移性源任务的任务嵌入，并验证其在数据大小、源和目标之间的有效性。最终的结果显示源数据大小、任务和领域的相似性和任务的复杂性在决定转移性方面起着关键作用。

May, 2020

视觉语言学习中知识的贡献：任务和挑战调查

研究了基于视觉和语言协同的任务，考虑利用知识图谱和大型语言模型等外部知识来源填补现有 VL 预训练数据集中存在的知识缺失问题，提出了基于混合架构的解决方案，并总结了知识图谱与大型语言模型潜在对未来混合模型的影响。

Mar, 2023

从多模态输入中获取语言知识

利用 FLAVA 模型进行消融研究，独立变化文本和视觉输入量，发现多模态预训练既不损害模型的语言性能，也没有一致的帮助作用；然而，由于实验规模有限，这些结论还不完全确定，需要更好的架构和多模态训练技术来验证多模态输入对语言模型和人类数据效率差距的假设。

Feb, 2024

对话理解中基于数据效率的数据集内任务迁移探索

本研究探讨了在对话领域中，基于顺序迁移学习的多少目标任务训练数据会对模型性能和数据效率产生何种影响。研究结果表明，在许多情况下，与没有迁移学习的相同模型相比，目标任务的训练数据大小对顺序迁移学习的表现几乎没有影响。这一出人意料的结果可能是灾难性遗忘效应的影响，进一步的工作需要研究如何避免这种遗忘。

Oct, 2022

探索任务可转移性在大规模多任务学习中的作用

本研究旨在阐明多任务表示学习中任务规模和相关性的影响。研究表明，如果预先知道目标任务，则在较小的一组相关任务上进行训练在降低计算成本的同时也能与大规模多任务训练相竞争。

Apr, 2022

视觉和语言推理：探索补充知识的益处

本文研究了将通用知识库中的知识注入视觉 - 语言模型中，并通过辅助训练目标增加了语义和关系知识的表征，实现了对问题回答、视觉推理等任务中的性能提升，这种技术不依赖于特定的模型，具有较小的计算开销。

Jan, 2021

深度学习中的可迁移性研究

本文介绍深度学习中的迁移学习，包含核心原理和方法、面临的基本问题、未解决的问题以及工具库和基准测试等方面的内容。

Jan, 2022