GPT超声：通过VLM从前臂超声图像解码手势

Jul, 2024

GPT超声：通过VLM从前臂超声图像解码手势

GPT Sonograpy: Hand Gesture Decoding from Forearm Ultrasound Images via VLM

Keshav Bimbraw, Ye Wang, Jing Liu, Toshiaki Koike-Akino

TL;DR大型视觉语言模型（如GPT-4o）是新兴的多模态基础模型，具有作为强大的人工智能辅助工具在医疗、工业和学术等领域的巨大潜力，虽然这类基础模型在广泛的常规任务中表现良好，但是在专门任务中它们在没有进行精细调整的情况下通常受到限制。然而，由于计算/内存/数据集要求巨大，完全调整大型基础模型具有挑战性。我们展示出GPT-4o即使在没有进行精细调整的情况下也能从前臂超声数据中解码手势，并通过少样本、上下文学习得到提升。

Abstract

large vision-language models (LVLMs), such as the generative pre-trained transformer 4-omni (GPT-4o), are emerging multi-modal foundation models which have great potential as powerful artificial-intelligence (AI)

发现论文，激发创造

增强现实应用中，合成视频生成用于手势识别的鲁棒性提升

本文介绍了一个能够生成具有标记边界框和指尖的逼真视频的框架，以帮助设计、训练和基准测试增强现实/virtual reality应用程序中的手势识别模型，并展示了我们的框架在生成具有不同背景的视频方面的有效性。

Nov, 2019

使用预训练的生成转换器（GPT-3）作为即插即用的感应模型用于医学图像分析的GPT4MIA

本研究提出了一种新的方法（称为GPT4MIA），利用生成预训练变压器（GPT）作为医学图像分析（MIA）的即插即用传递推理工具，在理论分析上，我们开发了多个技术处理，以提高GPT4MIA的效率和有效性，包括更好的提示结构设计、样本选择和代表性样本/特征的提示排序，并提供了两个具体的用例（带工作流程），以在与图像分类的成熟模型（例如ResNet）协同工作的情况下检测预测错误并提高预测准确度。

Feb, 2023

BiomedGPT：一种统一和综合的生物医学生成式预训练Transformer，可用于视觉、语言和多模态任务

本文介绍了一种统一且通用的生物医学生成式预训练转换器（BiomedGPT）模型，利用自监督方法在大量和多样化的数据集上进行训练，可接受多模式输入并执行多种下游任务，在20个公共数据集上表现优于先前绝大多数最先进模型，涵盖了15种独特的生物医学模式。通过实验展示了我们的多模式和多任务预训练方法将知识转移应用于先前未曾见过的数据的有效性。总的来说，本研究在开发生物医学统一通用模型方面迈出了重要的一步，对于改善医疗保健结果具有深远的影响。

May, 2023

手语姿态网络：基于姿态的Transformer模型增强手语翻译

我们在野外使用视频来处理美国手语拼写翻译的任务。我们利用更精确的手部姿势估计和提出了一种新的架构，它利用基于Transformer的编码-解码模型，实现了无缝上下文单词翻译。翻译模型通过一种新的损失项，准确预测指拼单词的长度，从而有益于训练和推理。我们还提出了一种新的两阶段推理方法，在解码器的语言模型能力下重新对假设进行排名。通过广泛的实验证明，我们的方法在ChicagoFSWild和ChicagoFSWild+上优于现有技术模型，相对性能提高了10%以上。我们的发现突出了我们方法的有效性和推进手语翻译中的拼写识别的潜力。代码也可在此https网址找到。

Nov, 2023

GPT-4V中提升医疗任务性能：关于提示工程策略的综合研究

GPT-4V的医学应用能力及改进方法的研究

Dec, 2023

VL-GPT：用于视觉与语言理解与生成的生成式预训练Transformer模型

VL-GPT是一种同时感知和生成视觉和语言数据的变压器模型，通过采用直观的自回归目标，实现了图像和文本两种模态的统一预训练方法，从而使模型可以像处理文本一样无缝地处理图像和文本。预训练完成后，VL-GPT在包括图像字幕生成、视觉问答、文本到图像生成等多样的视觉和语言理解以及生成任务中表现出了令人瞩目的零样本和少样本性能。

Dec, 2023

HandGCAT：从单目图像中抗遮挡重建三维手部网格模型

我们提出了一种从单眼图像中重建3D手部网格的稳健准确方法，并且在具有挑战性的手-物体遮挡情况下达到了最先进的性能。

Feb, 2024

双立体：手语三维动作重建与生成

通过使用基于变分自编码器的Transformer结构和课程学习策略，我们提出了SignAvatar框架，在缺乏真实世界中3D手语数据、手语动作复杂微妙性和多模态手语语义交叉理解的情况下具备单词级手语重建和生成的能力。我们贡献的ASL3DWord数据集包含了身体、手部和面部的3D关节旋转数据，通过大量实验展示了SignAvatar在重建和自动生成方面的卓越能力。

May, 2024

多模态生物信号的鲁棒手势分类的随机通道剥离

通过使用随机通道消除方法来提高多模态和多通道生物信号手势分类器的鲁棒性。

Jul, 2024

基于前臂超声的边缘手势识别

本研究解决了移动实时手势识别系统开发不足的问题，提出了一种基于深度神经网络的前臂超声手势识别方法。通过量化技术，我们降低了模型大小，同时保持高准确性和低延迟。最终模型在树莓派上的测试准确率达到92%，推理时间为0.31秒，展示了在资源有限的边缘设备上实现高效实时手势识别的可行性。

Sep, 2024