Apr, 2025

描述任何内容:详细的局部图像和视频字幕生成

TL;DR本研究针对视觉-语言模型在图像和视频特定区域生成详细准确描述的挑战,提出了描述任何内容模型(DAM),通过聚焦提示和局部视觉骨干实现局部细节与全局上下文的结合。该模型在七个基准测试中刷新了局部字幕生成的最新记录,显示了其在关键词、短语和多句详尽字幕生成方面的显著进展。