CVPRApr, 2024

关于低级视觉任务的语言指导的稳健性:深度估计的发现

TL;DR最近的研究在单目深度估计方面取得了很大的进展,通过加入自然语言作为额外的指导获得了令人印象深刻的结果,然而,语言先验的影响尚未被探索,特别是在泛化性和鲁棒性方面,本文通过量化这一先验的影响,并引入方法来评估其在不同背景下的有效性,我们发现当前的语言导向深度估计器只能在场景级描述方面表现最佳,而在低级描述方面却表现更差。尽管利用了额外的数据,这些方法在面对针对性的对抗攻击时不具备鲁棒性,并且在分布偏移增加时性能下降。最后,为未来的研究提供基础,我们识别出了这些方法的故障点,并提供了更好理解这些缺点的见解。随着越来越多的方法在深度估计中使用语言,我们的研究结果突出了需要在实际环境中进行有效部署时需要认真考虑的机会和陷阱。