基于对齐增强的补丁级预训练文档图像模型调优

AAAINov, 2022

基于对齐增强的补丁级预训练文档图像模型调优

Alignment-Enriched Tuning for Patch-Level Pre-trained Document Image Models

Lei Wang, Jiabang He, Xing Xu, Ning Liu, Hui Liu

TL;DR本文提出了一个新的模型结构，即 AETNet，使用带有对齐目标的下游任务进行 fine-tuning，同时引入了额外的可视化和文本转换器进行多模态融合，以实现更好的性能表现。该模型考虑了三个方面的对齐：文档级别对齐、全局 - 本地对齐和局部级别对齐，并在各种下游任务中实现了最先进的性能表现。

Abstract

alignment between image and text has shown promising improvements on patch-level pre-trained document image models. However, investigating more effective or finer-grained →

alignment pre-trained models document image supervised contrastive objective multimodal fusion

发现论文，激发创造

从神经机器翻译中准确导出词语对齐

该论文指出 Transformer 的注意力机制可以捕捉到准确的单词对齐，并提出了两种新的词语对齐感应方法 Shift-Att 和 Shift-AET，在三个公开数据集上的实验表明，两种方法都优于它们对应的神经基线，Shift-AET 比 GIZA ++ 高 1.4-4.8 AER 点。

Apr, 2020

通过草堆中的靓丽针使图像生成模型更上一层楼

通过在网络规模的图像 - 文本对上训练文本到图像模型，可以从文本生成广泛的视觉概念，但是这些经过预训练的模型在生成高度美学化图像方面往往面临挑战，因此需要进行美学对齐的预训练后处理。本文中，我们提出了质量微调方法，以有效地指导经过预训练的模型专门生成高度视觉吸引力图像，同时保持对视觉概念的普适性。我们的关键洞察是，使用一组数量惊人少但极具视觉吸引力的图像进行有监督的精细调整可以显著提高生成质量。我们在 11 亿个图像 - 文本对上预训练潜在扩散模型，并仅使用几千个精心挑选的高质量图像进行微调。得到的模型 Emu 在美学上的胜率为 82.9％，相比仅经过预训练的模型。与最先进的 SDXLv1.0 相比，在标准的 PartiPrompts 和我们的基于真实世界文本到图像模型使用情况的 Open User Input 基准测试上，Emu 被优先选择的概率分别为 68.4％和 71.3％。此外，我们还展示了质量微调是一种通用方法，在其他架构中也同样有效，包括像素扩散和掩膜生成变压器模型。

Sep, 2023

EvalAlign: 通过监督微调人工注释的多模态大模型的精确定位评估文本到图像模型

本文提出了 EvalAlign，这是一种准确性、稳定性和细粒度特性突出的评估指标，通过利用在大规模数据集上进行预训练的多模式大型语言模型（MLLMs）的能力，通过开发集中在图像忠实度和文本 - 图像对齐的两个关键维度的评估协议以及详细的、细粒度的指导指令，进行生成图像的精确手动评分，使 MLLMs 与人类评估判断紧密对齐，得到了一个强大的评估模型。我们对 24 个文本 - 图像生成模型进行了全面的测试，结果表明 EvalAlign 不仅提供了更好的指标稳定性，而且比现有的指标更接近人类的偏好，从而验证了其在模型评估中的有效性和实用性。

Jun, 2024

针对检索任务的细化联合文本和源代码嵌入优化与参数高效微调

基于 Transformer 模型的代码 - 文本检索问题上，我们提出了一种使用参数高效微调技术的微调框架，并采用对比学习目标来改善 Transformer 模型学习到的双模态表示质量。通过在两个数据集上对 CodeT5 + 模型进行全面实验，我们证明了该微调框架有潜力通过微调最多 0.4％的参数来提高代码 - 文本检索性能。

May, 2024

嵌入式提示调整：提高预训练医学图像模型的校准能力

基于大规模数据进行预训练的基础模型在各种自然成像下游任务中广泛取得成功。参数高效微调方法旨在通过仅更新少量参数以减少计算开销，使基础模型适应新领域。然而，这些参数高效微调方法的有效性，尤其是在跨域少样本场景（如医学图像分析）中，并未完全探讨。本研究旨在促进参数高效微调在将基础模型适应于医学图像分类任务中的性能研究。此外，为了缓解主流提示微调方法中提示引入方式和 Transformer 架构的逼近能力限制，我们提出了嵌入式提示微调（EPT）方法，通过将提示符嵌入扩展通道。我们还发现基础模型在预训练过程中的特征空间分布存在异常，而提示微调可以帮助缓解此负面影响。为了解释这一现象，我们还引入了一种新颖的视角来理解提示微调： extbf {提示微调是一种分布校准器}。我们通过分析 EPT 中包含的基于补丁的缩放和特征分离操作来支持这一观点。我们的实验表明，EPT 在少样本医学图像分类任务上显著优于几种先进的微调方法，并在竞争激烈的时间内完成微调过程，表明 EPT 是一种有效的参数高效微调方法。一旦被接受，我们的代码将会发布。

Jul, 2024

Pixel-BERT：基于深度多模态 Transformer 实现图像像素与文本的对齐

Pixel-BERT 是一种多模态的深度转换器，可以通过使用图像和文本数据对其进行联合学习，从而在像素和文本级别上进行语义连接，实现视觉和语言任务的更准确和彻底的连接，并解决了视觉任务中语义标签不平衡的问题。

Apr, 2020

AlignDet: 对象检测中的预训练和微调对齐

通过解决数据、模型和任务之间的差异，AlignDet 提出了一种统一预训练框架，可以适应各种现有的检测器，提高检测器的性能、泛化能力和收敛速度。

Jul, 2023

LiT: 基于锁定图像文本调整的零次迁移

该研究提出了对比度调整（contrastive-tuning）方法，通过对比训练使图像和文本模型对齐，该方法能够在使用预训练的同时仍然发挥其优势，其中最佳表现的是锁定的预先训练的图像模型和解锁的文本模型。LiT 模型具有其零 - shot 迁移能力，能够迁移新的视觉任务，本研究在多个预训练方法（有监督和无监督）以及不同架构 (ResNet, Vision Transformers 和 MLP-Mixer) 的三个不同的图像－文本数据集上得到了可靠的效果。

Nov, 2021

面向端到端语音意图系统中细化语音到 BERT 对齐的逐令牌对比学习预训练

通过交叉语境关注机制，引入了一种简单而新颖的技术，该技术用于从语音编码器中提取上下文嵌入，使得这些嵌入可以与基于 BERT 的上下文嵌入直接比较和对齐。使用类比对损失对这种预训练模型进行微调，直接使用语音进行意图识别可以达到最先进的性能，并在语音噪声较大的情况下进行正则化，与先前结果相比可以获得高达 8％的绝对改进。

Apr, 2022

利用自然语言监督改进视觉微调

本文通过引入一种基于文本监督的微调方法（TeS），旨在缓解预训练模型中的 bias 问题，并在 11 个下游任务上进行了验证。实验结果表明，该方法能够显著提高微调的效果。

Apr, 2023