MedICaT: 医学影像、字幕和文本参考数据集

EMNLPOct, 2020

MedICaT: 医学影像、字幕和文本参考数据集

MedICaT: A Dataset of Medical Images, Captions, and Textual References

Sanjay Subramanian, Lucy Lu Wang, Sachin Mehta, Ben Bogin, Madeleine van Zuylen...

TL;DR介绍了用于 MedICaT 医学图像的上下文数据集，其中包括来自 131k 篇开放获取生物医学论文的 217k 个图像。该数据集用于研究复合图中的子图对子标题的自动对齐，并展示了内联引用在图像文本匹配中的效用。

Abstract

Understanding the relationship between figures and text is key to scientific document understanding. medical figures in particular are quite complex, often consisting of several subfigures (75% of figures in our dataset), with detailed text describing their content. Previous work study

scientific documents medical figures medicat dataset figure retrieval image-text matching

发现论文，激发创造

SciCap+: 研究科学图标题挑战的知识增强数据集

通过扩充 SciCap 数据集，创新性地将科技论文中的图例标注生成作为知识增强图像标注任务，提高自动标注的效率与准确性，并探讨了从不同模视觉图像和文本知识融合的角度进行标注生成的实验研究。

Jun, 2023

SciCap：生成科学图像的标题

本文提出一种端到端的神经框架，用于自动生成科学图表的信息丰富，高质量的标题，并引入了基于计算机科学 arXiv 论文的 SCICAP 大规模图标题数据集，包括 200 万多个来自 290,000 多篇论文的图像，展示了为科学图表生成标题的机遇和挑战。

Oct, 2021

发明专利图生成短长说明

介绍了 Qatent PatFig，这是一个创新的大规模专利图像数据集，包括来自超过 11,000 个欧洲专利申请的 30,000 多个专利图像。每个图像都提供简短和长篇的描述、参考编号及其相应的术语，以及描述图像组件之间相互作用的最小索赔集。通过在 Qatent PatFig 上微调 LVLM 模型以生成简短和长篇描述，并研究在专利图像字幕生成过程中加入不同的基于文本的线索在预测阶段的效果，评估了数据集的可用性。

Sep, 2023

ACL-Fig: 用于科学图像分类的数据集

该研究提出了利用深度学习框架分类科学图表的流程，通过构建一个包含注释的大规模科学图表库，开创了科学图表自动注释的先河。

Jan, 2023

MEDIC：灾害图像分类的多任务学习数据集

该论文介绍了一个基于社交媒体（文本和图像）的人工智能的实际应用程序来拯救在自然灾害中的人类生命和减轻人类的苦难，在利用文本上取得了显著的进展之后，对于利用图像的研究仍然相对较少。为了推进基于图像的方法，作者提出 MEDIC，这是一个包含 71,198 个图像的最大人道主义反应社交媒体图像分类数据集，为多任务学习设置中的四个不同任务提供答案。

Aug, 2021

AToMiC: 支持多媒体内容创作的图像 / 文本检索测试集

介绍了 ATOMIC 数据集，旨在推进图像 / 文本跨模态检索的研究。该数据集采用多层次结构和不同域的文本、样式和图像类型，以及嵌入维基百科的大规模图像 - 文档关联性，构建了一种适应真实用户模型的检索测试集合，提供了可扩展、多样化、可重复制的多媒体检索研究的试验基础。

Apr, 2023

以图注形式生成科学文档的自动文本摘要

本文介绍用纯文本方法生成科学文献图注的一种新方法，使用了提取目标图像引用的句子然后将其总结为简明的图注的技术。通过真实世界 arXiv 论文的实验，我们的方法在自动和人工评估中都优于以前的方法，证明了纯文本技术在生成学术文章中的图片标注方面的有效性。

Feb, 2023

TextCaps：一种带有阅读理解的图像字幕数据集

该研究创建了一个新的数据集 TextCaps，涉及 28k 张图片和 145k 个标题，用于挑战计算机视觉模型识别图像中的文本，与视觉环境进行关联，并决定要复制或释义文本的哪个部分。研究表明，这个新的数据集提供了许多前所未有的技术挑战。

Mar, 2020

基于文本引导的病理图像分类模型适应

利用联接图像和文本嵌入（CITE）方法改进病理图像分类，通过注入来自在广泛的生物医学文本中预训练的语言模型所获取的文本见解，使基础模型适应病理图像理解，并在 PatchGastric 胃肿瘤病理图像数据集上取得了领先的性能。

Jul, 2023

MedCAT -- 医学概念注释工具

该论文提出了一种基于无监督机器学习的医疗概念注释工具 MedCAT，可在不需要人工标注数据的情况下从电子病历等医疗文档中提取并链接具有潜在医疗知识的实体，表现出良好的性能，是一种轻量级、快速且易于使用的工具。

Dec, 2019