Mar, 2024

3D 密集字幕的全面调查:定位和描述 3D 场景中的物体

TL;DR3D 密集的图像描述是一个新兴的视觉 - 语言桥接任务,旨在为 3D 场景生成多个详细准确的描述。本文提供了一份综合性的 3D 密集图像描述综述,涵盖了任务定义、架构分类、数据集分析、评估指标和深入的繁荣讨论。通过综合以前的文献,我们提炼了一个作为现有方法共同范例的标准流程,并提出了一种清晰的现有模型分类方法,并总结了不同模块中涉及的技术,并进行了详细的实验分析。同时,我们也提出了一系列有前景的 3D 密集图像描述的未来方向,并将其与相关任务的发展相结合,为这一领域的未来研究提供有价值的见解和启发。我们的目标是提供对 3D 密集图像描述的全面理解,促进进一步的研究,并在多媒体和相关领域的新应用的发展中做出贡献。