高效多域文本识别深度神经网络参数化及残差适配器

Jan, 2024

高效多域文本识别深度神经网络参数化及残差适配器

Efficient Multi-domain Text Recognition Deep Neural Network Parameterization with Residual Adapters

Jiayou Chao, Wei Zhu

TL;DR该研究介绍了一种新颖的神经网络模型，使用多任务学习来提高光学字符识别（OCR）的效率和泛化能力，并通过有效降低训练参数数量来保持高准确性，以适应新领域，提供领域特定性能改进而无需重新训练。该模型在开放数据集上经过严格评估，证实了其作为可扩展和适应性解决方案的潜力，在计算机视觉领域，尤其是光学文本识别应用中具有重要的意义。

Abstract

Recent advancements in deep neural networks have markedly enhanced the performance of computer vision tasks, yet the specialized nature of these networks often necessitates extensive data and high computational p

deep neural networks computer vision neural network model optical character recognition multi-task learning

发现论文，激发创造

使用残差适配器学习多个视觉领域

该论文介绍了一种利用适配器残模块进行数据表示学习的深度网络架构，该网络能够被灵活地指引至不同的视觉领域中，实现了高度的参数共享并保持或提高了特定领域表示的准确性。同时，该论文还提出了 Visual Decathlon Challenge 基准评测系统，用于同时评估表征的能力并测量其识别不同领域的能力。

May, 2017

多域深度神经网络的高效参数化

本文提出用一些适量的参数区分不同的子任务，从而在视觉领域的多个任务中进行迁移学习，此类参数化极易压缩且具有较高的性能。

Mar, 2018

循环神经网络的领域自适应应用于自然语言理解

使用多任务学习方法，缩短新任务学习所需的数据量，以提高自然语言理解中的 slot 填充模型适配多目标任务或领域的效率。该多任务模型可以利用在其他任务中学习到的模式，以较少的数据获得更好的性能，并支持开放词汇，可以很好地应用于微小数据量的训练。实验结果显示了该方法在四个不同领域中的适配效果和开放词汇技术的有效应用。

Apr, 2016

多 BERT：利用适配器和提示调整进行低资源多领域适应

本研究提出一种使用核心模型和多组领域特定参数的新方法，通过采用提示调优和适配器技术，结合额外层次的参数训练，使得模型能够在各个领域表现出色，甚至在某些领域超越现有模型。此外，我们还分析了各自适应策略的优势、劣势和最佳超参数，最后引入了一种基于文档的领域检测流程，提高了本研究在未知文本领域情景下的适应性和实用性。

Apr, 2024

调制适配器多领域学习

本文提出使用 Modulation Adapters 进行卷积滤波器权重更新的方法，从而在多领域的图像分类任务中取得了比现有最先进方法更好或相当的效果。

Jul, 2023

多源域自适应的元自学习：基准

本文的研究着重于文本识别问题，通过提出元自学习方法 (Meta Self-Learning) 和收集包含 5 个不同领域的超过 5 百万张图像的多源领域适应数据集，提供了一个基准测试，实验结果证明了我们的方法的有效性。

Aug, 2021

深度域自适应的残差参数转移

本文介绍了一种神经网络结构 —— 附带残差网络，其可灵活地维护域间的相似性，并在必要时模拟区别。实验证明，该方法比现有最先进的方法具有更高的准确性且不会过于复杂。

Nov, 2017

深度学习技术实现高效无词典 OCR

本文提出一种无分割 OCR 系统，该系统将深度学习方法、数据增强方法和合成训练数据结合起来，使用大型文本语料库和 2000 多种字体渲染合成训练数据，并通过几何失真和提出的 alpha-compositing 数据增强技术模拟复杂的自然环境，并采用 CNN 编码器以提取文本图像特征，检验了序列模型与卷积模型在模拟输入元素交互方面的能力。

Jun, 2019

DLoRA-TrOCR：基于 Transformer 的混合文本模式光学字符识别

本研究旨在通过对预训练基础 OCR 模型进行有效的参数微调，在各种下游任务中展示出卓越的性能。我们提出了一种基于预训练 OCR Transformer 的参数高效混合文本识别方法，即 DLoRA-TrOCR。该方法将 DoRA 嵌入图像编码器和 LoRA 嵌入文本解码器的内部结构，使得下游任务的参数微调更加高效。实验结果表明，与类似的参数调整方法相比，我们的模型 DLoRA-TrOCR 具有最少的参数，并且表现更好。它可以在包括混合手写、印刷和街景文本的复杂场景数据集上取得最先进的性能。

Apr, 2024

带残差转移网络的无监督域自适应

本文提出了一种可以同时学习源域标记数据和目标域未标记数据的适应分类器和可转移特征的深度网络领域适应新方法。改进了以往方法假设源分类器和目标分类器共享分类器的假设，并通过将多个层的特征与张量积融合并将它们嵌入可再生核希尔伯特空间来匹配特征适应的分布。实验结果表明新方法在标准领域适应基准上优于现有最先进的方法。

Feb, 2016