May, 2025
“我能看到永恒!”:评估实时视频语言模型以协助视觉障碍者
"I Can See Forever!": Evaluating Real-time VideoLLMs for Assisting
Individuals with Visual Impairments
TL;DR本研究解决了视觉障碍者在动态复杂环境中日常活动中的实时感知需求尚未得到满足的难题。通过构建一个基准数据集(VisAssistDaily),我们评估了实时视频语言模型在辅助视觉障碍者的有效性,发现GPT-4o在任务成功率上表现最佳。我们还提出了环境意识数据集SafeVid及轮询机制,以更好地检测动态环境中的潜在危险,为未来研究提供了有价值的见解与灵感。