基于 LLMs 的块级文本检测

Jun, 2024

Block-level Text Spotting with LLMs

Ganesh Bannur, Bharadwaj Amrutur

TL;DR通过利用大型语言模型的强大语义知识，提出了一种新颖方法 BTS-LLM（基于 LLM 的区块级文本识别），以在图像中识别区块级别的文本，从而增强后续应用中的上下文信息和文本纠错功能。

Abstract

text spotting has seen tremendous progress in recent years yielding performant techniques which can extract text at the character, word or line level. However, extracting blocks of text from images (block-level text spotting) is relatively unexplored. Blocks contain more context than i

text spotting block-level text spotting bts-llm line level large language model

发现论文，激发创造

基于预训练语言模型的精确无侦测场景文本定位

本研究提出了一种场景文本检测器，利用预训练语言模型来增强性能，通过简单的文本块检测器获得粗略的定位信息，并通过大规模 OCR 数据集微调语言模型以实现准确识别，实验证明本场景文本检测器在多个公开基准上表现优越，同时展示了预训练语言模型在整个场景图像中直接检测文本的潜力。

Mar, 2024

检测 LLM 生成的文本的科学

该研究对大型语言模型生成文本的检测技术现状及未来方向进行了综述，并提出了发展全面的评估指标和威胁控制方案等必要措施。关注点包括大型语言模型的开源威胁和其所产生的可能的误传信息问题。

Feb, 2023

用双筒望远镜发现 LLMs：机器生成文本的零样本检测

利用两个紧密相关的预训练大型语言模型之间的对比得分，我们提出了一种新颖的仅需要使用这对 LLM 进行简单计算的 LLM 检测器，名为 Binoculars，它在不需要任何训练数据的情况下实现了最先进的准确性，能够在各种现代 LLM 的文本中发现机器生成的文本。在多种文档类型并且各个情况下，我们全面评估了 Binoculars 的性能，它以 0.01% 的误报率能够检测到 ChatGPT（和其他 LLM）生成的样本中超过 90% 的文本，尽管它没有接受任何 ChatGPT 数据的训练。

Jan, 2024

用于联合文本检测与布局分析的层级文本识别

我们提出了一种名为层级文本识别器（HTS）的新方法，用于识别图像中的文本并确定其字符、单词、行和段落的四级层级结构。HTS 通过两个新颖组件实现：(1) 统一检测器多边形（UDP），可以生成文本行的贝塞尔曲线多边形以及用于检测线之间自然分组的亲和矩阵；(2) 行 - 字符 - 单词（L2C2W）识别器，可以将行分割为字符，再将它们组合成单词。HTS 在多个单词级文本识别基准数据集以及几何布局分析任务中取得了最先进的结果。

Oct, 2023

基于 LLM 的文本检测调查：必要性、方法和未来方向

大语言模型生成的文本检测是一项关键任务，需要开发检测器来区分其文本是否由大语言模型生成，并呼吁加强相关研究以推进负责任的人工智能实现。

Oct, 2023

SPOT: 从原创性评分阈值预测文本来源

从信任的角度来研究大型语言模型（LLMs）生成的文本，我们提出了一种有效的方法 SPOT，通过原创度评分来对任意文本输入进行源分类，该方法对于现代 LLMs 的架构、训练数据、评估数据、任务和压缩表现出了稳健性。

May, 2024

使用 LLM 将标志识别转换为口语句子

引入一种混合式 SLT 方法 Spotter+GPT，旨在从手语视频中生成口语句子，通过训练在语言手语数据集上的手语识别器和预训练的大型语言模型来提高 SLT 性能。

Mar, 2024

基于字长度的文本定位：增强稠密文本图像的检测和识别

WordLenSpotter 是一种针对场景文本图像检测和识别的新型单词长度感知检测器，通过有效整合多尺度文本图像特征，迭代地优化文本区域图像特征，并利用单词长度先验性地约束感兴趣区域，增强网络捕捉长尾分布特征的能力。

Dec, 2023

多语言大型语言模型是否能够进行上下文中的文本到图像学习？

将大型语言模型从文本到多模态进化为多模态大型语言模型 (MLLMs)，并扩展了上下文学习 (ICL) 到多模态环境。本研究中提出以 T2I-ICL 为任务的新的 benchmark 数据集 CoBSAT，通过与六个最先进的 MLLMs 算法的对比表明了 T2I-ICL 的困难及其挑战，并探索了 fine-tuning 和 Chain-of-Thought prompting 等策略以实现显著改进。

Feb, 2024

基于大型语言模型的生成文本隐写术

基于大型语言模型用户界面的黑盒生成式文本隐写方法（LLM-Stega）研究了关于大型语言模型的高质量文本生成模糊了人类和机器之间的边界，通过用户界面对 LLM 进行秘密通信。通过构建关键词集合和设计一种新的加密隐写映射算法，提出了一种基于拒绝抽样优化机制来保证秘密信息的准确提取和生成隐写文本丰富语义的 LLM-Stega 方法，全面的实验表明该方法优于当前最先进的方法。

Apr, 2024