TEXT2TASTE: 用大型语言模型的多功能自我中心视觉系统进行智能阅读辅助

Apr, 2024

TEXT2TASTE: 用大型语言模型的多功能自我中心视觉系统进行智能阅读辅助

TEXT2TASTE: A Versatile Egocentric Vision System for Intelligent Reading Assistance Using Large Language Model

Wiktor Mucha, Florin Cuconasu, Naome A. Etori, Valia Kalokyri, Giovanni Trappolini

TL;DR通过智能眼镜中嵌入的 RGB 摄像头和大型语言模型（LLM）构建的智能阅读助手，利用物体检测和光学字符识别方法处理眼镜佩戴者的视角拍摄视频，从而定位文本信息，并通过与用户的互动实现查询和摘要功能，为有视力障碍的人群提供在日常活动中获取知识的能力。

Abstract

The ability to read, understand and find important information from written text is a critical skill in our daily lives for our independence, comfort and safety. However, a significant part of our society is affected by partial vision impairment, which leads to discomfort and dependency in daily activities. To address the limitations of this part of society,

intelligent reading assistant smart glasses object detection optical character recognition large language model (llm)

发现论文，激发创造

GazeGPT: 使用凝视灵活背景人工智能增强人类能力的智能眼镜

通过使用凝视相关的机制，GazeGPT 作为一种新的用户交互范式，利用眼动追踪技术帮助 LMM 理解用户关注的世界摄像头视野中的对象，显著提高了用户在狗品种分类任务中的准确性，被认为比头部或身体驱动的选择机制更自然，并且在未来的 AI 驱动个人助理中具有重要价值。

Jan, 2024

迷失在翻译中：当 GPT-4V (ision) 无法与文字心有灵犀。VLLMs 及更多的视觉语言一致性分析

通过对多模态机制的详细分析，揭示了 GPT-4V 等模型执行视觉和语言任务的一致性与独立性，并引入了一种名为 “Vision Description Prompting” 的方法，有效提高了具有挑战性的视觉相关任务的性能。

Oct, 2023

带空间约束的文本引导眼镜操纵

本文提出了一种基于文本和二进制 mask 的眼镜虚拟试穿方法，通过 mask encoder 实现对 mask 条件的提取，同时使用 modulation module 来同时注入文本和 mask 条件，进而控制眼镜的外观。通过 disentangled mapper 和 decoupling strategy 来实现局部的精细编辑，通过两阶段的训练方案来控制眼镜的形状和样式，实验结果表明该方法能够实现多种眼镜样式并能保留相关不相关区域。

Apr, 2023

Steve-Eye: 使用视觉感知为基于 LLM 的具身化智能体装备开放世界

本文提出了 Steve-Eye，一个端到端训练的大型多模态模型，用于解决大语言模型在直观理解环境和生成易于理解响应方面的挑战，并基于广泛实验验证了该模型在战略行为和规划方面的能力。

Oct, 2023

LLM-Optic：揭示大型语言模型在通用视觉锚定中的能力

通过使用大型语言模型作为视觉定位模型的辅助工具，LLM-Optic 方法克服了复杂文本查询的限制，实现了可以通过任意语言输入来检测任意对象的视觉定位能力，无需额外训练或微调。

May, 2024

朝着能够看见的语言模型：通过自然语言镜头看计算机视觉

LENS 是一种模块化的方法，针对计算机视觉问题，利用大型语言模型进行推理，可以应用于零 / 少样本对象识别，以及视觉和语言问题。

Jun, 2023

EyeGPT: 大型语言模型的眼科助理

通过三种优化策略，我们引入了专门设计用于眼科学的 EyeGPT，该模型的综合评估框架包括不同领域的眼科学数据集、不同用户和多样化的查询意图。该模型在可理解性、可信度和同理心方面与人类眼科医生相当，为开发专门的大型语言模型在眼科学中提供了有价值的见解。

Feb, 2024

MISAR：一种具备增强现实的多模态指导系统

创新方法利用大语言模型融合视觉、听觉和语境模态，以提高增强现实系统的状态估计，为更自适应的增强现实系统迈出了一步。

Oct, 2023

用双筒望远镜发现 LLMs：机器生成文本的零样本检测

利用两个紧密相关的预训练大型语言模型之间的对比得分，我们提出了一种新颖的仅需要使用这对 LLM 进行简单计算的 LLM 检测器，名为 Binoculars，它在不需要任何训练数据的情况下实现了最先进的准确性，能够在各种现代 LLM 的文本中发现机器生成的文本。在多种文档类型并且各个情况下，我们全面评估了 Binoculars 的性能，它以 0.01% 的误报率能够检测到 ChatGPT（和其他 LLM）生成的样本中超过 90% 的文本，尽管它没有接受任何 ChatGPT 数据的训练。

Jan, 2024

实现视觉辅助对话的社交机器人

本论文提出了一个初步实现的对话管理器，利用最新的大型语言模型（如 GPT-4，IDEFICS）来将视觉能力整合到对话代理中，以增强传统的基于文本的提示与实时视觉输入。该系统的提示工程结合了对图像的对话与摘要，以确保在上下文保留和计算效率之间保持平衡。通过实现这种视觉使能的对话系统，本论文展望了未来，让对话代理无缝地融合文本和视觉模态，实现更丰富、更上下文感知的对话。

Nov, 2023