MENTOR:面向类推学习的多语言文本检测
提出了一种称为 TEXTRON 的基于数据编程的方法,它通过加入不同的计算机视觉方法和深度学习方法来改善多语种文本检测,特别是对于印度语言中的手写文字,TEXTRON 可以提高检测性能,尽管缺乏相应的标注数据。
Feb, 2024
我们引入了一个新的基准数据集 MULTITuDE,用于多语言机器生成文本检测,包括 11 种语言(ar,ca,cs,de,en,es,nl,pt,ru,uk 和 zh)的 74,081 个真实和机器生成的文本,由 8 个多语言 LLM 生成。利用这个基准,我们比较了零样本(统计和黑盒)和微调检测器的性能,并考虑多语言性,评估了这些检测器在未见过的语言(语言相似和不相似)和未见过的 LLMs 上的泛化性和这些检测器在培训多种语言时是否提高了性能。
Oct, 2023
本文开发了一个带有乌尔都文本的情景图像数据集,并提出使用机器学习方法从这些图像中检测乌尔都文本的方法,包括通过 MSER 方法提取文本区域、利用 SVM 分类器筛选非文本区域、HoG 特征训练第二个 SVM 分类器来进一步提高文本区域检测的性能。最终目的是为乌尔都文本检测研究提供数据资源,并突出该领域的挑战和研究空白。
Sep, 2022
我们提出了一种多语言文本检测模型,通过引入 SFM Swin Transformer 特征提取网络、AS-HRFPN 特征融合网络和全局语义分割分支,改进了对自然场景中多语言文本的检测准确性和难度,实验结果表明该算法 F-measure 值为 85.02%,比基准模型高出 4.71%。
Dec, 2023
该文章提出了一种半监督的多模态文本识别方法(SemiMTR),通过使用自监督学习和监督学习相结合的单一阶段,将现有的多模态场景文本识别方法拓展到了未标注数据的应用。该算法利用对视觉模型的预训练和语言模型的微调,同时在每个模态单独地应用连续性正则化方法进行训练,取得了在多个场景文本识别基准测试上的最新成果。
May, 2022
本论文探讨采用跨语言预训练的零样本方法来学习多模态表示,提出建立跨语言图像检索模型的简单实用方法,并引入了一种新的目标函数来测试多语言 MSCOCO2014 字幕测试数据集(XTD10)的零样本模型性能,证明跨语言模型可用于零样本的下游任务, 如多语言图像标记。
Sep, 2021
通过预先训练的视觉 - 语言模型,结合适当的调整和随机扰动方法构建了一个能够自动识别图像标签的全自动流水线,该方法在各种多标签分类任务中显示出优越性能。
Dec, 2023
该研究提出了第一个多语种(22 种语言)和多平台(5 个社交媒体平台)数据集 ——MultiSocial,用于在社交媒体领域评估机器生成文本检测的性能,结果显示 fine-tuned 的检测器在社交媒体文本上训练没有问题,并且训练过程中选择的平台对结果有影响。
Jun, 2024
该论文介绍了一种使用跨语言预训练进行零 - shot 学习的多模式语言和视觉问题解决方法,它可以用于构建跨语言图像检索模型和改进文本嵌入聚类,并在多语言环境下进行评估。
Nov, 2020
大型语言模型的广泛发展使得检测机器生成的文本变得前所未有的重要。本研究通过收集大范围的语言模型生成数据,训练神经检测器并测试其在未经训练的生成器输出上的性能,发现中等规模语言模型训练的检测器能够零样本推广到更大的版本。作为一个具体的应用,我们证明了可以在中等规模模型的训练数据集合上构建强大的检测器。
Oct, 2023