像人类一样阅读：自主、双向和迭代式的场景文本识别语言建模

CVPRMar, 2021

像人类一样阅读：自主、双向和迭代式的场景文本识别语言建模

Read Like Humans: Autonomous, Bidirectional and Iterative Language Modeling for Scene Text Recognition

Shancheng Fang, Hongtao Xie, Yuxin Wang, Zhendong Mao, Yongdong Zhang

TL;DR提出了一种自主的、双向的、迭代的 ABINet 模型用于场景文本识别，通过阻塞视觉和语言模型之间的梯度流来明确语言建模，基于双向特征表示提出了一个新的双向洞穴网络作为语言模型，并提出一种迭代校正语言模型的执行方式，有效缓解了噪音输入的影响。此外，提出了一种自我训练方法，可以有效地从未标记的图像中学习，并在多个主流基准测试中取得了最先进的结果。

Abstract

Linguistic knowledge is of great benefit to scene text recognition. However, how to effectively model linguistic rules in end-to-end deep networks remains a research challenge. In this paper, we argue that the li

scene text recognition end-to-end deep networks bidirectional cloze network autonomous bidirectional iterative network self-training

发现论文，激发创造

IPAD：一种基于迭代、并行和扩散的场景文本识别网络

提出了一种使用并行和迭代解码器，并采用易先原则解码策略的替代方案，将文本识别视为基于图像的条件文本生成任务，并采用离散扩散策略，确保双向上下文信息的穷举性探索。大量实验证明，该方法在基准数据集上取得了优越的结果，包括中英文文本图像。

Dec, 2023

一个混合监督和无监督学习的语言演变迭代学习模型

通过使用神经网络进行监督学习和自监督学习，本文提出了一种新的模型，旨在解决语言转换中存在的计算负担问题，并引入了人类发展过程中观察到的监督和非监督学习的混合。

May, 2024

低资源口语理解的双向表示

本篇研究提出了一种表示模型来编码富含双向编码的语音，同时使用遮蔽语言建模目标来学习这个模型。采用类关注作为口语理解模块，提高了模型在 Fluent Speech Command 数据集上的性能，并且可以用于可视化解释模型预测。

Nov, 2022

回到未来：双向信息解耦网络用于多轮对话建模

提出了一种名为 BiDeN 的通用对话编码器，用于捕捉对话的时间特征，将预训练语言模型用于编码对话记录是不够充分的，实验证明 BiDeN 在不同的下游任务中都表现出了卓越的效果。

Apr, 2022

端到端可训练的基于图像序列识别的神经网络及其在场景文本识别中的应用

本文提出了一种新颖的神经网络架构，将特征提取、序列建模和转录集成到统一框架中，用于场景文本识别，相比现有算法其具有端到端训练，不需要一定的词典限制，更加适合实际应用等优点，在标准测试数据上展现出更好的性能。

Jul, 2015

基于语言模型的配对变分自编码器用于机器人语言学习

研究了通过预训练语言模型进行机器人的语言描述，在简单的物体操作场景下，实现了机器人行为和语言描述的双向绑定，并提出使用所提供的 PVAE-BERT 模型可以在真实场景中用于实现人机交互的指令。

Jan, 2022

双向 LSTM-CNN 命名实体识别

本文提出了一种新颖的神经网络模型，利用混合双向 LSTM 和 CNN 架构自动检测单词和字符级特征，并提出了一种将部分词典匹配编码到神经网络中的方法。经过广泛评估，使用两个来自公开资源的词典，该系统在 CoNLL-2003 数据集上达到 91.62 的 F1 分数，在 OntoNotes 上达到 86.28 的 F1 分数，超过了其他采用重度特征工程、专有词典和丰富的实体链接信息的系统。

Nov, 2015

BLA 基准：研究预训练多模态模型的基本语言能力

我们探索了预训练语言与视觉模型在基本语言构造方面的处理程度，并提出了 BLA 评估基准，发现各种类型的基于 Transformer 的系统普遍在零样本设置下难以处理 BLA，但生成型的 BLIP2 在上下文学习环境中显示出有希望的趋势，这为将 BLA 用作评估基准以及提高模型的基本语言能力打开了大门。

Oct, 2023

使用深度双向 LSTM 进行图像字幕生成

本研究提出了一种端到端可训练的深度双向 LSTM 模型，用于图像字幕生成，增加了数据增强技术，并在三个基准数据集上进行了评估，证明其性能竞争力强。

Apr, 2016

PIMNet：一种用于场景文本识别的并行、迭代和模拟网络

该研究提出了一种平行、迭代和模仿网络 (PIMNet)，它采用了一种平行注意机制来更快地预测文本，以及一种迭代生成机制来使预测更加准确。与自回归模型相比，该方法在推理时间上更快，同时保持了很高的准确性。

Sep, 2021