- ICDAR 2023 读取印章比赛
本文介绍了 ICDAR 2023 印章标题文本识别(ReST)比赛,并概述了比赛的组织、挑战和结果,报道了来自学术界和工业界的 53 位参与者,包括 28 个 Task 1 的提交和 25 个 Task 2 的提交,结果表明印章标题文本识别 - 针对英文手写体草书和印刷体的端到端交互式深度学习标注系统
本文介绍了一种创新的、完整的端到端流程,采用深度学习和用户交互技术,对印刷和草书英文手写手稿进行注释,该方法使用了最先进的文本识别模型构建的检测系统和自定义的深度学习模型,结合易于使用的交互式界面,旨在提高检测、分割、序列化和识别阶段的准确 - CVPR将 CLIP 模型转化为场景文字检测器
该研究提出了一种名为 TCM 的新方法,通过直接应用 CLIP 模型来进行文本检测,而不需要预先培训过程。实验证明该方法有助于现有场景文本检测方法的少样本学习能力,并且具有良好的领域自适应能力。
- DetectGPT: 使用概率曲率的零样本生成文本检测
该研究利用基于曲率的方法,提出了一种新的不需要训练分类器、收集真实或生成的文本数据集、或明确给生成文本加上水印的检测方法 DetectGPT,它可以更好地检测 20B 参数的 GPT-NeoX 生成的假新闻文章。
- 多种培训策略的人工文本检测
本篇研究提出了针对 2022 年俄罗斯人工文本检测对话共享挑战赛(RuATD 2022)的一种解决方案,即使用 DeBERTa 预训练语言模型和多种训练策略区分生成该文本的模型。在 RuATD 数据集上进行的广泛实验验证了我们所提出的方法的 - ECCV带有文本的房间数据集用于叠加文本检测
本文介绍了一份新的数据集,其中包含 25 种产品类别的 4836 张带有叠加和场景文本的房间内部图片。我们提供了数据集的详细信息和分析结果,并提出了一种基线方法,该方法利用字符區域感知文本检测框架引导分类模型进行文本检测。我们验证了我们的方 - CVPRDeepSolo: 一种用显式点进行文本定位的 Transformer 解码器
文章介绍一种名为 DeepSolo 的模型,使用 ordered points 表达字符序列并训练一个 Decoder 进行文字检测和识别,同时还引入了更精确的监督信号提高训练效率,实验结果表明 DeepSolo 在公共基准测试中优于之前的 - 威胁模型和检测方法的综合调研
本文是关于机器生成文本和自然语言生成领域的综述。研究表明,机器生成文本与人类作者的文本越来越难以区分,因此我们讨论了现代自然语言生成系统带来的威胁模型,并对文本检测方法进行了最全面的综述。本文进一步讨论了机器生成文本的安全和社会背景,并提出 - ECCV面向场景文本理解的上下文文本块检测
本文提出一种基于场景文本聚类技术的上下文文本块检测新模型,并分别设计了三种衡量局部精度、连续性和全局精度的度量标准,实验证明该模型能够有效地促进文本分类和翻译等下游任务。
- CVPR文本检测变形金刚
本文提出了一种名为 TESTR 的通用的基于 Transformers 的端到端的文本检测与识别框架,其有效地解决了曲线文本框表示所需要的特殊关注的问题,并在曲线和任意形状的数据集上展现出最先进的性能。
- MMMMOCR: 一款全面的文字检测、识别和理解工具箱
MMOCR 是一个开源工具箱,提供了文本检测和识别的全面流水线,以及其下游任务,例如命名实体识别和关键信息提取。它实现了 14 种最先进的算法,大大超过了我们目前知道的所有现有开源 OCR 项目。
- ICCV自适应边界建议网络用于任意形状文本检测
该文提出一种基于神经网络的边界生成方法,能够直接生成准确的任意形状文本边界而无需后处理,实验表明该方法在公开数据集上取得了良好的效果。
- ACL多模态图像字幕生成(面向视觉障碍人士)
本研究提出用 AoANet 和指针 - 生成机制来改进图像字幕视频,实现文本检测和复制,提高图像字幕性能从而更好地帮助视力受损人士理解环境。
- CVPR傅立叶轮廓嵌入在任意形状文本检测中的应用
该研究论文提出了一种称为 Fourier Contour Embedding (FCE) 方法,通过傅里叶变换将任意形状的文本轮廓表示为紧凑的签名,并构建 FCENet 模型进行文本检测,实验结果表明其准确度和鲁棒性均较高。
- ECCVAE TextSpotter:学习用于模糊文本检测的视觉和语言表达
本文介绍了一种名为 AE TextSpotter 的文字识别方法,与以往的方法不同的是,它在视觉特征的基础上加入了语言特征用以减少检测过程中的歧义。实验表明,AE TextSpotter 在极具歧义性的样本上的性能优于其他最先进的方法超过 - ECCV字符区域关注网络用于文本检测
本研究将文本检测和识别模块融合,并采用基于注意力机制的解码器,通过利用角色评分图来更好地关注字符中心点,实现了一种紧密耦合的单管道模型,扩展了开放式直线和曲线基准数据集的最新性能。
- AAAI一项针对科学图表的目标检测网络系统评估
研究了不同的目标检测网络在 PlotQA 数据集上检测科学图中文本和视觉元素的准确性,提出了使用 Laplacian 边缘探测器的区域建议方法、包括相邻信息的特征表示、连接组件和自定义损失函数等优化方案,改进了当前模型的效率和准确度,并对自 - MM探究社交媒体中针对仇恨言论的深度学习方法
本文提出利用深度学习方法,结合各种嵌入技术,在社交媒体中检测各种类型的仇恨言论,特别是在包含有限上下文信息的推文中,这是一种非常具有挑战性的任务,三个公开数据集的实验结果表明精确度和 F1 得分都有显著提高。
- 再看一眼:朝着更紧密的任意形状文本检测
提出了一种基于深度学习的两阶段文本检测器 NASK,采用实例分割技术,通过 GSCA 模块、RoI Pooling 和 FOX 模块,能够更精确地定位和还原任意形状、不同大小、存在转角的文本,并在公共基准测试数据集上取得了最先进的结果。
- 利用视觉关系和图卷积网络进行任意形状场景文本检测
本论文提出了一种名为 ReLaText 的新型任意形状文本检测方法,通过采用将文本检测转化为视觉关系检测问题的方法,使用基于锚点自由区域提案网络的文本检测器以及基于图卷积网络(GCN)的链接关系预测模块,实现了更为准确和高效的文本检测。实验