多源域自适应的元自学习:基准
本文提出了一种利用自由可得的多模态内容进行无人监督计算机视觉算法训练的方法,通过挖掘大规模的多模态文档语料库中的语义结构进行话题建模,训练卷积神经网络来预测图像最可能出现为插图的语义上下文,有效地学习了区分性视觉特征,其实验结果表明具有比近期的自监督或自然监督方法更好的图像分类、物体检测和多模态检索的性能。
May, 2017
本文提出了一种自我监督域自适应的通用方法,重点关注简单的预训练任务,如图像旋转预测,运用于对象识别和城市场景语义分割等场景,并提出了预测层对齐和批归一化校准等策略以进一步提高其准确性。实验结果表明自我监督在域自适应方面具有很大的潜力。
Jul, 2019
本文提出了一种新的元学习框架,集成对抗域适应网络,旨在提高模型的适应能力并为新类别生成高质量的文本嵌入。在四个基准数据集上进行了大量实验,结果表明我们的方法在所有数据集上都明显优于现有技术,特别是在20个新闻组数据集上,1-shot和5-shot分类的准确性从52.1%提高到59.6%和从68.3%提高到77.8%。
Jul, 2021
本篇论文介绍了一种名为MATRN(Multi-modAl Text Recognition Network)的新方法,通过促进视觉和语义特征之间的互动,提高了文字识别的性能,并证明其在7项基准测试上取得了最先进的表现。
Nov, 2021
本文提出了一种元学习方法 Meta-Weight Regulator(MWR),可用于将源数据上训练过的神经文本匹配模型适应到少样本目标数据或任务上,以显著提高模型跨数据集和跨任务的适应能力。
Apr, 2022
该文章提出了一种半监督的多模态文本识别方法(SemiMTR),通过使用自监督学习和监督学习相结合的单一阶段,将现有的多模态场景文本识别方法拓展到了未标注数据的应用。该算法利用对视觉模型的预训练和语言模型的微调,同时在每个模态单独地应用连续性正则化方法进行训练,取得了在多个场景文本识别基准测试上的最新成果。
May, 2022
本文提出了一种基于VLM的开放词汇无监督领域自适应框架,并通过Prompt Ensemble Self-Training技术来提高领域间的图像和文本分布的转移灵活性和效率, 实验结果表明其在10个图像识别任务中比目前最先进的技术表现更优秀。
Jun, 2023
该论文介绍了一种用于手写文本识别的Align, Minimize和Diversify(AMD)方法,它是一种无源无监督域自适应方法。通过解耦适应过程和源数据,这种方法不仅避免了资源密集型的重新训练过程,还能够利用现代深度学习架构中编码的丰富预训练知识。通过引入三个独立的正则化项,即对齐项、最小化项和多样化项,我们的方法明确消除了在适应过程中需要重新访问源数据的需求,保证了预训练表示的可迁移性,最小化预测的不确定性,同时通过促进目标数据中的多样性和独特序列,防止信息崩溃。多个基准实验结果证明了AMD的有效性和鲁棒性,在手写文本识别中竞争力强,常常胜过之前的域自适应方法。
Apr, 2024
本研究解决了现有文本分类模型在新挑战性未见领域的泛化能力不足这一问题。提出了一种多源元学习框架,通过模拟模型对未见领域的泛化过程,并引入记忆机制和“陪审团”机制,以提取域相关特征和学习足够的域不变特征。实验结果表明,该框架显著提高了模型在未见领域的泛化能力,并在多源文本分类数据集上超越了最先进的方法。
Sep, 2024