EMNLPOct, 2020

MedICaT: 医学影像、字幕和文本参考数据集

TL;DR介绍了用于 MedICaT 医学图像的上下文数据集,其中包括来自 131k 篇开放获取生物医学论文的 217k 个图像。该数据集用于研究复合图中的子图对子标题的自动对齐,并展示了内联引用在图像文本匹配中的效用。