眼部地理网：从眼科笔记中提取空间信息

May, 2023

眼部地理网：从眼科笔记中提取空间信息

Eye-SpatialNet: Spatial Information Extraction from Ophthalmology Notes

Surabhi Datta, Tasneem Kaochar, Hio Cheng Lam, Nelly Nwosu, Luca Giancardo...

TL;DR本论文提出了一种基于 Rad-SpatialNet 和 Eye-SpatialNet 语义模型和 BERT 模型的关于眼科领域临床信息提取的自动化方法，并给出了一个包含 1715 个空间触发器、7308 个发现、2424 个解剖学和 9914 个描述符的注释语料库。结果表明，该方法可以准确地提取和表示眼科临床信息，为眼科疾病预防和筛查相关应用和研究提供了有价值的工具。

Abstract

We introduce an annotated corpus of 600 ophthalmology notes labeled with detailed spatial and contextual information of ophthalmic entities. We extend our previously proposed frame semantics-based spatial representation schema, →

ophthalmology rad-spatialnet eye-spatialnet bert information extraction

发现论文，激发创造

深度学习在胸部 X-Ray 报告中理解空间语言的表示框架，标注和空间关系提取

该研究提出了一种基于深度学习自然语言处理的方法，通过从放射学报告中提取空间信息，包括放射学发现、解剖位置、可能诊断以及相关避免使用术语等，从而为诊断提供详细信息。

Aug, 2019

3SHNet: 图像 - 句子检索的提升，通过视觉语义空间的自我突出

我们提出了一种新颖的视觉语义 - 空间自突出网络 (称为 3SHNet)，用于高精度、高效率和高泛化图像 - 句子检索。通过突出突出标识突出对象及其在视觉模态中的空间位置，3SHNet 实现了视觉语义空间交互的集成，并保持了两种模态之间的独立性。此集成有效地将对象区域与来自分割的对应语义和位置布局相结合，增强了视觉表示。而模态独立性确保了效率和泛化性。此外，3SHNet 利用来自分割的结构化上下文视觉场景信息进行局部 (基于区域) 或全局 (基于网格) 引导，并实现准确的混合级别检索。在 MS-COCO 和 Flickr30K 基准测试上进行的大量实验证实了所提 3SHNet 与同类最新方法相比在性能、推理效率和泛化性方面的优越表现。具体地，在较大的 MS-COCO 5K 测试集上，相对于使用不同图像表示的最新方法，我们在 rSum 得分方面分别取得了 16.3%、24.8% 和 18.3% 的改善，同时保持最佳的检索效率。此外，我们在跨数据集泛化方面的性能提升了 18.6%。数据和代码可在链接中获得。

Apr, 2024

通过深度语义凝视嵌入和扫视路径比较对 OPT 观察期间的专业能力分类

本文基于卷积神经网络提出了一个新的注视序列比较方法，通过图像分析来探索医学专家和新手在阅读牙齿放射图时眼动行为的差异，结果表明在任务语义影响下，该方法在能够准确区分专家和新手方面表现出较好性能，并且具有将任务语义与眼动行为结合在一起的潜力。

Mar, 2020

具有韧性和可解释性的关系网络空间参考基础

本论文提出一种文本条件化的关系网络模型，通过跨模态的注意力机制动态计算参数以捕获实体之间的精细空间关系，从而实现对文本中空间参照的理解，具有可解释性和鲁棒性，在三个任务中实现了 17% 和 15% 的表现改进，从而解决了在自主导航和机器人控制中学习空间概念表示的关键挑战。

May, 2020

基于空间表达的视觉对话的语言分析

本文介绍了一个新的资源和框架，用于研究在视觉基础对话中细化语言理解，该资源包括 OneCommon 语料库、空间表达式、基于参考解析评估模型对语言结构理解的实验等，通过提供全面和可靠的语言结构注释，揭示了基线模型的优缺点。

Oct, 2020

基于空间双模态图推理的关键信息提取

本文提出了一种旨在从文档图片中提取关键信息的端到端空间双模图形推理方法，将文档图像建模为双模图，节点编码检测到的文本区域的视觉和文本特征，边表示相邻文本区域的空间关系，并通过沿图边传播消息和推理图节点的类别来解决关键信息提取问题；进一步提供了一个新的数据集 “WildReceipt”，其中包含 25 个关键信息类别，约 69000 个文本框，并在 SROIE 和 WildReceipt 上获得了最新的最佳结果。

Mar, 2021

跨模态临床图形变换器用于眼科报告生成

该论文提出了一种用于眼科报告生成的交叉模态临床图变换器（CGT）模型，该模型利用数据驱动的神经网络和临床关系三元组注入到视觉特征中，以提高模型的效果并克服基于通用生物医学知识库的知识注入的局限性。通过自然语言处理，该模型从领域内训练报告中提取临床实体和关系数据，并在编码过程中仅限制可见矩阵的影响，实现了优于之前基准模型的最佳表现。

Jun, 2022

面向 TextVQA 的空间感知多模态 Transformer

本研究提出了基于 TextVQA 任务的一种新型空间感知自注意力模型，可以有效地推理图像中的文本内容，改进了 TextVQA 和 ST-VQA 两个关键指标，同时为视觉绑定的研究方向提供了新的思路。

Jul, 2020

基于空间感知 Transformer-GRU 框架的增强型青光眼诊断从 3D OCT 成像

提出了一种新颖的深度学习框架，基于 3D 光学相干断层扫描（OCT）成像进行自动青光眼检测，取得了优于现有方法的表现，为提高临床决策支持系统和改善青光眼管理患者预后提供了重要潜力。

Mar, 2024

多模态视觉语言模型中的基于实体的视觉空间推理

利用大规模视觉语言模型评估其在不同视觉推理任务中的性能，特别是在理解空间关系方面的能力的研究。通过细粒度的组合性先验来解决空间关系推理任务的评估和排名，结合物体及其位置的核心语义来计算空间子句的最终评分，并比较不同视觉语言模型在空间关系推理方面的能力。

Aug, 2023