生物医学图像字幕化调查
本篇研究旨在利用自动化文本生成技术从放射学图像中提取诊断说明,以辅助医疗专业人员减少临床错误并提高工作效率,目的是提供既能够增强报告质量和效率的工具,也能够对临床实践和生物医学领域的深度学习研究产生重大影响的方法。
May, 2024
我们的研究提出了一种改进的医学图像描述生成方法,通过将概念检测集成到注意机制中。该方法利用先进模型识别医学图像中关键概念,并将其纳入描述生成过程中。结果表明,我们使用的 Swin-V2 模型在概念检测任务中,在验证集上达到 0.58944 的 F1 分数,在私有测试集上达到 0.61998 的 F1 分数,位列第三。对于描述预测任务,我们的 BEiT+BioBart 模型结合概念集成和后处理技术,在验证集上取得 0.60589 的 BERTScore,私有测试集上取得 0.5794 的 BERTScore,位列第九。这些结果突显了概念感知算法在生成精确和上下文恰当的医学描述方面的有效性。研究结果表明,我们的方法显著提高了医学图像描述的质量,突出了它在改善医学图像解释和文档化,并促进改善医疗结果方面的潜力。
Jun, 2024
本文提出了一种新的图像字幕架构,通过构建以字幕为导向的视觉关系图以及利用弱监督多实例学习引入有益的归纳偏差来增强图像表示和字幕生成,实现多模态问题解决和优化。在 MSCOCO 数据集上进行广泛实验,证明该框架在多种评估指标下取得了业内最优表现。
Jun, 2020
这篇论文讨论了我们在图像字幕生成实验中的结果,并展示了我们的模型准确性以及从图像描述中学习的语言的流畅性,在几个标记数据集上进行了实验。我们将图像字幕应用于创建视频字幕,并提出了一些挑战性的假设。
May, 2018
图像字幕生成是一项计算机视觉任务,涉及为图像生成自然语言描述,本文评估了基于不同编码机制、语言解码器和训练过程构建的多种模型在真实世界图像字幕生成方面的性能。
Aug, 2023
诊断字幕自动生成一份诊断性文本,从一个或多个患者的医学图像(如 X 射线、MRI)中。本论文提出了一种新的数据驱动引导解码方法,将医学信息纳入诊断文本生成过程的波束搜索中,并在两个医学数据集上使用四个诊断字幕系统进行评估。在大多数情况下,所提出的机制在所有评估指标上提高了性能。
Jun, 2024
本研究探讨了图像字幕生成器将原始图像信息转化为文本时信息的损失程度,并通过对比使用标准图像分类器和仅使用文本分类器进行的灾难图像分类任务的结果来评估了几种图像字幕生成模型,表明在某些情况下文本分类器可以比标准图像分类器实现更高的准确度,同时还表明将图像分类器与文本分类器进行融合可以提高准确性。
May, 2023
本文对 GUI 与自然语言描述软件之间的联系进行了综合实证研究,收集、分析和开源了一个由人类标注者提供的大规模功能 GUI 描述数据集,并探究了四种神经图像字幕模型的表征潜力,以预测不同粒度的自然语言描述,并通过大规模用户研究定量和定性评估了这些模型,最后提出多模态模型的潜力以增强未来的自动化软件文档技术。
Jan, 2023