Aug, 2022

多模式讲座演示文稿数据集:理解教育幻灯片中的多模式性

TL;DR介绍了一个为了测试机器学习模型在多模态教育内容理解方面表现的新的数据集 ——Multimodal Lecture Presentations 数据集,并且提出了两个任务 —— 解释和说明教育内容,其中前者实现语音识别,后者实现视觉内容合成。介绍了一个名为 PolyViLT 的多模态变形器,该模型采用多个实例学习方法比现有方法更有效,同时指出了在多模态教育表现方面的挑战和机遇。