Apr, 2023

从弱文本监督中学习图像中的人际互动

TL;DR该论文提出了一种新的学习人际互动的方法,利用单张静态图片中的自由文本,实现对人际互动在各种情况和关系中的建模。作者使用了基于大型语言模型生成的合成标题数据的知识蒸馏方法,成功训练出一种 “理解” 图像中人际互动的字幕模型,达到了精确、语义匹配、事实准确的预测模型。该方法在人际互动理解这一任务上,比目前最先进的图像字幕生成和情境识别模型表现更优。