基于视觉-语言模型实现建筑环境零注释的方法
本文提出了一种基于车载摄像头图像的道路布局推断模型,同时构建了一个路况数据集,可以将导航地图的元数据与Google街景图像匹配以提供标签,并利用深度卷积网络训练该模型,结果表明该方法可用于提升基础设施安全性。
Nov, 2016
提出一种半自动化的方法,利用估计的3D道路平面投影所有图像序列中的标签,以实现图像序列的高效标注,平均每张图像的标注时间缩短到了5秒,无需使用昂贵的传感器设备,同时发布了一个包含24,000张图像的数据集并展示了实验结果。
Jul, 2018
本文提出了一种新的旨在针对非结构化驾驶环境的 IDD 数据集,其中包括来自印度道路的 10,004 幅图像,涵盖了 34 个类别的精细注释,建议使用四级标签层次结构以适应不同训练方法,而现有的语义分割方法在 IDD 数据集上的准确度表现不佳。
Nov, 2018
在城市场景语义分割中,我们提出一种课程学习的方法来尽可能减小真实和合成数据之间的差距。该方法采用先易后难的策略,对全局标签分布和本地超像素标签分布进行先验知识的推断,并在此基础上训练语义分割网络。在两个数据集和两种Backbone网络上,我们的方法表现优于基线,并且进行了广泛的实验研究。
Dec, 2018
通过使用大规模视觉和语言模型来缓解对外部注释的依赖,我们提出了一种新的零样本建筑属性提取工作流程,包含图像级标题生成和分割级标题生成两个主要组成部分,从而为结构和土木工程领域中的构建属性提取增强了 AI 驱动的标题生成的可行途径,最终减少了对人工注释的依赖并提高了性能和适应性。
Dec, 2023
针对建筑工地的多样挑战,介绍了一个新的语义分割数据集,以增强目标检测模型在不同的天气和环境条件下的训练和评估,从而促进其在实际建筑应用中的适应能力和可靠性。
Dec, 2023
这篇论文提出了一种集成计算机视觉和生成式人工智能(genAI)的新方法,通过先进的图像分割和扩散模型的协同作用,实现了城市设计的全面方法。我们的研究方法涵盖了详细图像分割的OneFormer模型和通过ControlNet实现的文本描述生成图像的稳定扩散XL(SDXL)扩散模型。早期测试表明,UrbanGenAI不仅提升了城市景观重建的技术前沿,也在设计教学和社区参与的城市规划方面提供了显著的益处。UrbanGenAI的持续发展旨在对其在更广泛的背景下的有效性进行进一步验证,并集成实时反馈机制和三维建模能力等附加功能。
Jan, 2024
本研究探讨了多模态基础模型在街景影像、建筑环境和室内设计中的应用,揭示了其在长度测量和风格分析等任务上的能力,同时也指出了在详细识别和计数任务中的局限性。研究结果表明,尽管零-shot 学习存在潜力,模型性能依赖于问题领域和影像复杂性,从而为多模态基础模型在实际挑战中的应用提供了新见解。
Aug, 2024
本研究针对视觉语言模型在交通工程任务中的应用,探讨了现有模型在图像分类和目标检测中的表现,特别是拥堵检测和裂缝识别。通过采用零-shot 提示方法评估多种开源和闭源模型,发现尽管这些模型在图像分类任务中表现与传统卷积神经网络相当,但在目标定位上仍需改进,为未来研究提供了基准和改进方向。
Sep, 2024
本研究解决了城市建筑外观数据库构建中的准确性和细节问题,强调了能源效率、环境可持续性和以人为本设计的关键指标。提出的BuildingView方法结合了Google街景的高分辨率视觉数据和OpenStreetMap的空间信息,显著提高了城市研究中的数据准确性和系统性。该数据库经过纽约市、阿姆斯特丹和新加坡的数据验证,为城市规划、建筑设计和环境政策提供了全面支持。
Sep, 2024