Jun, 2024

图形用户界面操作叙述器:行为发生的地点和时间是什么?

TL;DR通过引入语言与视觉多模态学习模型,研究提高图像 OCR 识别能力并实现 GUI 自动化,开发了适用于 GUI 动作的视频字幕基准以及利用光标作为视觉提示的 GUI 视频字幕框架,提升了高分辨率截图的解释性。实验结果表明,即使对于如 GPT-4o 等最先进的多模态模型,该任务仍具有很高的挑战性,并且我们的策略可以有效增强模型性能。