眼部地理网:从眼科笔记中提取空间信息
该研究提出了一种基于深度学习自然语言处理的方法,通过从放射学报告中提取空间信息,包括放射学发现、解剖位置、可能诊断以及相关避免使用术语等,从而为诊断提供详细信息。
Aug, 2019
我们提出了一种新颖的视觉语义 - 空间自突出网络 (称为 3SHNet),用于高精度、高效率和高泛化图像 - 句子检索。通过突出突出标识突出对象及其在视觉模态中的空间位置,3SHNet 实现了视觉语义空间交互的集成,并保持了两种模态之间的独立性。此集成有效地将对象区域与来自分割的对应语义和位置布局相结合,增强了视觉表示。而模态独立性确保了效率和泛化性。此外,3SHNet 利用来自分割的结构化上下文视觉场景信息进行局部 (基于区域) 或全局 (基于网格) 引导,并实现准确的混合级别检索。在 MS-COCO 和 Flickr30K 基准测试上进行的大量实验证实了所提 3SHNet 与同类最新方法相比在性能、推理效率和泛化性方面的优越表现。具体地,在较大的 MS-COCO 5K 测试集上,相对于使用不同图像表示的最新方法,我们在 rSum 得分方面分别取得了 16.3%、24.8% 和 18.3% 的改善,同时保持最佳的检索效率。此外,我们在跨数据集泛化方面的性能提升了 18.6%。数据和代码可在链接中获得。
Apr, 2024
本文基于卷积神经网络提出了一个新的注视序列比较方法,通过图像分析来探索医学专家和新手在阅读牙齿放射图时眼动行为的差异,结果表明在任务语义影响下,该方法在能够准确区分专家和新手方面表现出较好性能,并且具有将任务语义与眼动行为结合在一起的潜力。
Mar, 2020
本论文提出一种文本条件化的关系网络模型,通过跨模态的注意力机制动态计算参数以捕获实体之间的精细空间关系,从而实现对文本中空间参照的理解,具有可解释性和鲁棒性,在三个任务中实现了 17% 和 15% 的表现改进,从而解决了在自主导航和机器人控制中学习空间概念表示的关键挑战。
May, 2020
本文介绍了一个新的资源和框架,用于研究在视觉基础对话中细化语言理解,该资源包括 OneCommon 语料库、空间表达式、基于参考解析评估模型对语言结构理解的实验等,通过提供全面和可靠的语言结构注释,揭示了基线模型的优缺点。
Oct, 2020
本文提出了一种旨在从文档图片中提取关键信息的端到端空间双模图形推理方法,将文档图像建模为双模图,节点编码检测到的文本区域的视觉和文本特征,边表示相邻文本区域的空间关系,并通过沿图边传播消息和推理图节点的类别来解决关键信息提取问题;进一步提供了一个新的数据集 “WildReceipt”,其中包含 25 个关键信息类别,约 69000 个文本框,并在 SROIE 和 WildReceipt 上获得了最新的最佳结果。
Mar, 2021
该论文提出了一种用于眼科报告生成的交叉模态临床图变换器(CGT)模型,该模型利用数据驱动的神经网络和临床关系三元组注入到视觉特征中,以提高模型的效果并克服基于通用生物医学知识库的知识注入的局限性。通过自然语言处理,该模型从领域内训练报告中提取临床实体和关系数据,并在编码过程中仅限制可见矩阵的影响,实现了优于之前基准模型的最佳表现。
Jun, 2022
本研究提出了基于 TextVQA 任务的一种新型空间感知自注意力模型,可以有效地推理图像中的文本内容,改进了 TextVQA 和 ST-VQA 两个关键指标,同时为视觉绑定的研究方向提供了新的思路。
Jul, 2020
提出了一种新颖的深度学习框架,基于 3D 光学相干断层扫描(OCT)成像进行自动青光眼检测,取得了优于现有方法的表现,为提高临床决策支持系统和改善青光眼管理患者预后提供了重要潜力。
Mar, 2024
利用大规模视觉语言模型评估其在不同视觉推理任务中的性能,特别是在理解空间关系方面的能力的研究。通过细粒度的组合性先验来解决空间关系推理任务的评估和排名,结合物体及其位置的核心语义来计算空间子句的最终评分,并比较不同视觉语言模型在空间关系推理方面的能力。
Aug, 2023