Aug, 2023

TS-RGBD 数据集:面向视觉障碍人士的剧场场景描述的新型数据集

TL;DR在这篇论文中,我们提出了一个包含具有人类动作的真实场景和密集标题注释的新型 RGB-D 数据集(TS-RGBD 数据集),以进行影像字幕和人类动作识别。我们测试了图像字幕模型和基于骨骼的人类动作识别模型,以通过检测人类动作并对剧场场景中感兴趣区域的外观进行文本描述,拓展了视障人士所在环境类型的范围。