生物医学图像字幕化调查

May, 2019

A Survey on Biomedical Image Captioning

Vasiliki Kougia, John Pavlopoulos, Ion Androutsopoulos

TL;DR本文首次回顾讨论了医学图像字幕生成中的数据集、评估措施和现有技术，并提出了两种基准测试方法，其中强方法在一个数据集上的表现超出了所有现有技术系统。

Abstract

image captioning applied to biomedical images can assist and accelerate the diagnosis process followed by clinicians. This article is the first survey of →

biomedical image captioning datasets evaluation measures state of the art methods

发现论文，激发创造

在 ImageCLEF 医学描述 2024 中的 UIT-DarkCow 团队：使用 Transformer 模型进行放射影像的诊断性描述提高效率

本篇研究旨在利用自动化文本生成技术从放射学图像中提取诊断说明，以辅助医疗专业人员减少临床错误并提高工作效率，目的是提供既能够增强报告质量和效率的工具，也能够对临床实践和生物医学领域的深度学习研究产生重大影响的方法。

May, 2024

DS@BioMed 在 ImageCLEFmedical Caption 2024 中的研究：通过概念检测集成增强的医学字幕生成中的注意力机制

我们的研究提出了一种改进的医学图像描述生成方法，通过将概念检测集成到注意机制中。该方法利用先进模型识别医学图像中关键概念，并将其纳入描述生成过程中。结果表明，我们使用的 Swin-V2 模型在概念检测任务中，在验证集上达到 0.58944 的 F1 分数，在私有测试集上达到 0.61998 的 F1 分数，位列第三。对于描述预测任务，我们的 BEiT+BioBart 模型结合概念集成和后处理技术，在验证集上取得 0.60589 的 BERTScore，私有测试集上取得 0.5794 的 BERTScore，位列第九。这些结果突显了概念感知算法在生成精确和上下文恰当的医学描述方面的有效性。研究结果表明，我们的方法显著提高了医学图像描述的质量，突出了它在改善医学图像解释和文档化，并促进改善医疗结果方面的潜力。

Jun, 2024

更好地利用图片描述提升图像字幕质量

本文提出了一种新的图像字幕架构，通过构建以字幕为导向的视觉关系图以及利用弱监督多实例学习引入有益的归纳偏差来增强图像表示和字幕生成，实现多模态问题解决和优化。在 MSCOCO 数据集上进行广泛实验，证明该框架在多种评估指标下取得了业内最优表现。

Jun, 2020

图像字幕

这篇论文讨论了我们在图像字幕生成实验中的结果，并展示了我们的模型准确性以及从图像描述中学习的语言的流畅性，在几个标记数据集上进行了实验。我们将图像字幕应用于创建视频字幕，并提出了一些挑战性的假设。

May, 2018

现实世界图像描述和场景识别的全面分析

图像字幕生成是一项计算机视觉任务，涉及为图像生成自然语言描述，本文评估了基于不同编码机制、语言解码器和训练过程构建的多种模型在真实世界图像字幕生成方面的性能。

Aug, 2023

基于数据驱动的诊断字幕引导解码机制

诊断字幕自动生成一份诊断性文本，从一个或多个患者的医学图像（如 X 射线、MRI）中。本论文提出了一种新的数据驱动引导解码方法，将医学信息纳入诊断文本生成过程的波束搜索中，并在两个医学数据集上使用四个诊断字幕系统进行评估。在大多数情况下，所提出的机制在所有评估指标上提高了性能。

Jun, 2024

图像字幕的深度学习综述

该研究综述了基于深度学习的图像描述技术，包括目标识别、句子生成及评估度量等方面进行了探讨。

Oct, 2018

图像字幕有时传达的信息超过其所能看到的图像

本研究探讨了图像字幕生成器将原始图像信息转化为文本时信息的损失程度，并通过对比使用标准图像分类器和仅使用文本分类器进行的灾难图像分类任务的结果来评估了几种图像字幕生成模型，表明在某些情况下文本分类器可以比标准图像分类器实现更高的准确度，同时还表明将图像分类器与文本分类器进行融合可以提高准确性。

May, 2023

新闻报道场景下的图像描述

图像字幕生成的研究探索了针对名人照片的任务，旨在通过更直观的图像字幕框架丰富新闻报道的叙述，从而增强自动化新闻内容生成，促进信息的更具细致的传播。

Mar, 2024

使用图像字幕生成技术进行自动化软件文档编写的实证研究

本文对 GUI 与自然语言描述软件之间的联系进行了综合实证研究，收集、分析和开源了一个由人类标注者提供的大规模功能 GUI 描述数据集，并探究了四种神经图像字幕模型的表征潜力，以预测不同粒度的自然语言描述，并通过大规模用户研究定量和定性评估了这些模型，最后提出多模态模型的潜力以增强未来的自动化软件文档技术。

Jan, 2023