利用资源丰富的语言数据集进行资源匮乏语言的端到端场景文本识别

MMNov, 2021

利用资源丰富的语言数据集进行资源匮乏语言的端到端场景文本识别

Utilizing Resource-Rich Language Datasets for End-to-End Scene Text Recognition in Resource-Poor Languages

Shota Orihashi, Yoshihiro Yamazaki, Naoki Makishima, Mana Ihori, Akihiko Takashima...

TL;DR本文介绍了一种用于端到端场景文本识别的训练方法，该方法利用多语言数据集进行编码器的预训练，将编码器上的知识泛化到目标语言；同时，使用目标语言的数据集训练解码器以提高模型在目标语言数据上的表现。实验表明，该方法在小规模数据集上具有较好的识别效果。

Abstract

This paper presents a novel training method for end-to-end scene text recognition. end-to-end scene text recognition offers high recognition accuracy, especially when using the encoder-decoder model based on Tran

end-to-end scene text recognition encoder-decoder model multilingual training resource-poor language japanese

发现论文，激发创造

低资源语音到文本翻译

通过实验研究，我们发现在资源有限的情况下，从字符级识别转化成单词级可以显著提高低资源语言语音翻译的速度，并且在训练数据相对较少的情况下，仍然可以实现相对较高的词汇精度和召回率。

Mar, 2018

低资源语言的弱监督场景文本生成

本文提出了一种基于弱监督学习的场景文本生成方法，通过跨语言生成，将场景文本图片的内容和样式特征分离，并引入整合式注意力模块和预先训练的字体分类器以保证生成图片的完整内容结构以及填补不同语言文本风格之间的差距，实验结果显示，该方法显著提高了场景文本识别精度。

Jun, 2023

面向资源匮乏语言的跨语言任务特定表示学习用于文本分类

使用双向 LSTM 网络与相似度度量的对比损失函数，通过在共同空间中学习资源贫乏和资源丰富句子的表示方法，实现了情感分析和表情符预测等文本分类任务中对资源贫乏语言（如印地语和泰卢固语）和资源丰富语言（如英语和西班牙语）进行有效分类的目标。

Jun, 2018

基于序列的多语言低资源语音识别

研究多语言和跨语言语音识别技术，通过使用基于序列的端到端方法，提高系统性能，并可跨语言适应新的语言和领域。

Feb, 2018

基于多智能体通信协作的零资源神经机器翻译算法

本文提出了一种交互式多模态框架，通过游戏的方式解决了低资源语言对和领域下数据匮乏的翻译问题，并在实验中证明此学习机制显著优于现有的最先进方法。

Feb, 2018

大型预训练语言模型向端到端语音识别器的知识转移

本文提出了一种方法，通过从大规模语言模型的嵌入向量获取语义知识来缓解需要耗费大量成本的转录训练的问题，并扩展了注意力机制的解码器和神经音响模式的解码器，以实现错误率的降低。

Feb, 2022

ICDAR2019 多语言场景文本检测和识别鲁棒性挑战 —RRC-MLT-2019

本文介绍了基于 RRC-MLT-2017 的文本检测和识别竞赛，该竞赛包含一个新的端到端任务、一个现实图像数据集中的额外语言，一个大规模的多语言合成数据集以辅助训练，并提出了一个基线端到端识别方法。该竞赛总共收到了来自研究和工业界的 60 份提交，本文展示了该竞赛的数据集、任务和发现结果。

Jul, 2019

利用多语言数据集进行预训练的能力：提升文本定位性能

基于中间表示的领域自适应场景文本识别模型，以达到在各个领域中的高准确性和高效率。

Oct, 2023

端到端视频字幕生成

本文提出了采用端到端训练的方法来实现视频描述生成，并在微软研究视频描述数据集 (MSVD) 和微软视频到文本数据集 (MSR-VTT) 上取得了最新的最优表现。

Apr, 2019

基于预训练 ASR 模型的低资源语音转文本翻译策略

本文提出了改进低资源语音转文本翻译性能的技术和发现，实验结果显示多语言自动语音识别系统在低资源场景下作为良好的初始化，CTC 作为额外的目标有助于重新排序内部表示并提高最终翻译。通过实验，确定了对改进低资源设置最有贡献的各种因素（初始化、目标和超参数）。在只有 300 小时的预训练数据下，模型在 Tamasheq - French 数据中取得了 7.3 的 BLEU 分数，比 IWSLT 2022 的先前发表作品高 1.6 个百分点。

May, 2023