城市环境中的越南场景文本检测的集成学习

Apr, 2024

城市环境中的越南场景文本检测的集成学习

Ensemble Learning for Vietnamese Scene Text Spotting in Urban Environments

Hieu Nguyen, Cong-Hoang Ta, Phuong-Thuy Le-Nguyen, Minh-Triet Tran, Trung-Nghia Le

TL;DR提出了一个简单而高效的整合学习框架用于越南场景文字定位。通过结合多个模型以提高预测准确性的整合学习方法，旨在显著提升在具有挑战性的城市环境下的场景文字定位性能。通过在 VinText 数据集上的实验评估，我们提出的方法相对于现有方法在准确性方面取得了显著改进，达到了 5% 的令人印象深刻的准确性。这些结果明确证明了在越南城市环境中的场景文字定位中整合学习的效果，并强调了其在真实世界应用方面的潜力，如城市标识、广告和各种富有文字的城市场景中的文本检测和识别。

Abstract

This paper presents a simple yet efficient ensemble learning framework for vietnamese scene text spotting. Leveraging the power of ensemble learn

ensemble learning vietnamese scene text spotting urban settings accuracy improvement real world applications

发现论文，激发创造

基于多种神经网络模型的越南社交媒体数据集的简单高效集成分类器

使用深度学习模型和集成模型对社交媒体上的越南文本进行分类，实现了比之前研究更好的性能。

Sep, 2020

高效利用语言先验进行场景文本定位

通过利用大型文本语料库中的语言知识，替换自回归场景文本定位和识别模型中传统的独热编码，提高了场景文本定位和识别性能，并实现了更准确的词语定位。

Feb, 2024

SwinTextSpotter: 基于更好的文本检测与识别协同的场景文本定位

本文提出了一种使用 transformer encoding 的新型端到端场景文本识别框架，并通过一种新的识别转换机制，在不需要额外的矫正模块或字符级别注释的情况下显式地引导文本定位，从而使该方法在多种数据集上显著优于现有方法。

Mar, 2022

利用多语言数据集进行预训练的能力：提升文本定位性能

基于中间表示的领域自适应场景文本识别模型，以达到在各个领域中的高准确性和高效率。

Oct, 2023

使用基于 Transformer 的神经模型提升越南文本序列标注

本文介绍了使用多语言 BERT 嵌入和一些新的神经模型，提高越南语序列标记任务的研究。我们提出了新的模型架构，在 VLSP 2016 和 VLSP 2018 两个命名实体识别数据集和 VLSP 2010 和 VLSP 2013 两个词性标记数据集上进行了广泛评估。我们的方法优于现有方法，并实现了新的最先进结果。

Jun, 2020

利用越南社交媒体特征进行越南文本情感识别

研究表明，适当的基于越南社交媒体特征的预处理技术结合情感上下文的关键子句提取，可显著提高 MLR 的性能，达到最佳 F1 得分 64.40%, 比 UIT-VSMEC 作者构建的 CNN 模型 (59.74%) 提高了 4.66%。

Sep, 2020

SwinTextSpotter v2：场景文字识别的协同优化

SwinTextSpotter v2 是一个新的端到端场景文字识别框架，通过引入 Recognition Conversion 和 Recognition Alignment 模块来加强文本检测和识别之间的关系，从而在各种多语言基准测试中取得了最先进的性能。

Jan, 2024

基于部分监督学习的大规模中文街景文字阅读

该研究提出了一个大规模的文本阅读基准数据集，名为 Chinese Street View Text（C-SVT），可用于评估深度学习模型的性能。同时，介绍了使用弱标注数据的部分监督学习框架进行文本识别的方法。基于该框架，提出了一种在线提议匹配模块和一种共享参数的定位算法，以提高模型的端到端识别表现，并在 ICDAR 2017-RCTW 数据集中取得了最新的结果。

Sep, 2019

異構集成方法對重新識別的有效性研究

本文介绍了一种新的集成方法，用于工业实体的重新识别，使用了芯板托盘和镀锌金属板的图像作为数据集示例，并使用简化的、基本的模型代替常用的复杂孪生神经网络，提供更广泛的适用性，尤其适用于硬件限制的场景。我们的算法在训练时间的一小部分内使用了不同类型的数据特征作为输入，实现了创建有效集成模型的目标，并且在任务中达到了最先进的性能，排名 1 准确率超过 77%，排名 10 准确率超过 99%，并且介绍了五种不同的特征提取方法，并通过不同的集成方法对其组合进行了研究。

Mar, 2024

越南社交媒体文本的情绪识别

通过构建一个包含 6927 个情感标注句子的越南社交媒体情感语料库，我们在情感识别领域探究了机器学习和深度神经网络模型的表现，发现使用 CNN 模型的全重 F1 - 分数最高可达 59.74%。

Nov, 2019