Apr, 2024

TEXT2TASTE: 用大型语言模型的多功能自我中心视觉系统进行智能阅读辅助

TL;DR通过智能眼镜中嵌入的 RGB 摄像头和大型语言模型(LLM)构建的智能阅读助手,利用物体检测和光学字符识别方法处理眼镜佩戴者的视角拍摄视频,从而定位文本信息,并通过与用户的互动实现查询和摘要功能,为有视力障碍的人群提供在日常活动中获取知识的能力。