May, 2023

通过多媒体基础实现非顺序图脚本归纳

TL;DR该论文提出了一种新的具有挑战性的任务,即非顺序图脚本推理,旨在捕捉程序规划中的可选步骤和可互换步骤,通过多模态框架将视频转换成观察到的步骤路径,以训练生成明确图脚本和预测未来步骤的模型。该模型优于纯文本 / 视觉基线,人类评估显示超过 WikiHow 线性基线,能够更好地捕捉顺序和非顺序步骤关系。