Jun, 2024

看見看不見的:視覺隱喻對視頻進行標註

TL;DR我们介绍了一项新的视觉 - 语言(VL)任务,描述视频中的隐喻,并提出了一个低资源视频隐喻字幕系统(GIT-LLaVA),该系统在所提出的任务上获得了与现有技术相媲美的性能。