CMFN: 跨模态融合网络用于不规则场景文字识别
本研究提出了一种基于场景图融合网络的图像 - 文本检索方法,通过内部和交叉模态融合来增强图像 / 文本特征,并采用层次化的融合注意力来将语义信息嵌入到图像 / 文本特征向量之中,进而进行图像 - 文本的检索任务。实验结果表明,本方法相比其他现有技术,在公开数据集 Flickr30K 和 MSCOCO 上取得了更好的效果。
Mar, 2023
本篇论文介绍了一种名为 MATRN(Multi-modAl Text Recognition Network)的新方法,通过促进视觉和语义特征之间的互动,提高了文字识别的性能,并证明其在 7 项基准测试上取得了最先进的表现。
Nov, 2021
本文采用图卷积网络结合场景文本实例和显著图像区域进行多模态推理,在 Con-Text 和 Drink Bottle 数据集中,在细粒度图像分类和图像检索任务中显著优于之前的最新技术。
Sep, 2020
通过降低非重要图片和文本片段的参与度,提高对重要片段的对齐相似性,本文介绍了一种新的跨模态突出片段增强对齐网络 (CPFEAN),该网络通过减少在对齐过程中无关区域的参与度并相对提高对齐的突出词,从而实现改进的检索准确性。与最先进的方法相比,在 MS-COCO 和 Flickr30K 数据集上进行了大量定量比较实验,结果显示本方法在 rSum 度量上的表现超过了现有方法约 5% 至 10%。
Nov, 2023
通过引入面部属性和语义信息,以提高在低质量图像中进行面部识别的性能为目标,本文介绍了一种名为文本引导的面部识别(TGFR)方法,通过跨模态对齐和融合模块,以及面部特征和文本特征的优化,实现了显著的性能提升。
Dec, 2023
我们提出了一种多语言文本检测模型,通过引入 SFM Swin Transformer 特征提取网络、AS-HRFPN 特征融合网络和全局语义分割分支,改进了对自然场景中多语言文本的检测准确性和难度,实验结果表明该算法 F-measure 值为 85.02%,比基准模型高出 4.71%。
Dec, 2023
利用跨模态语义指导多模态特征的融合和解码,提出了一种新的方法以控制相对熵,具有共享和特定的表示法以及跨层自我监督,并基于质量适应模态贡献的 all-round attentive fusion 和 course-to-fine decoder 两部分解码器,提高特征可辨别性和系统的表现。
May, 2023
本论文提出了一种图像分割方法,即采用编码器融合网络(EFN)将视觉编码器转换为多模态特征学习网络,利用语言逐步优化多模态特征;在 EFN 中嵌入了协同注意机制,使得多模态特征的平行更新更具协同性,同时提出了边界增强模块(BEM)来增强网络对细节的关注,在四个基准数据集上的实验结果表明所提出的方法在不同的评价指标下均取得了最先进的性能,且无需后处理。
May, 2021
本研究提出了一种基于图的文本建模方法和双向神经网络模型,用于跨模态信息检索,结合卷积神经网络和 Graph Convolutional Network,通过相似度度量,并采用成对相似度损失函数训练模型,在准确率提升了 17%的前提下,成为了最先进的方法。
Feb, 2018