- MM移动设备上实时神经体渲染的研究
Neural Radiance Fields (NeRF) is a real-time rendering technique for synthesizing 3D objects from 2D images, with a focu - MobileAIBench: 用于设备上应用场景的 LLM 和 LMM 基准测试
通过使用较少参数和定量化等模型压缩技术,MobileAIBench 评估了多尺寸、定量化水平和任务,并在真实设备上测量延迟和资源消耗,旨在提供在移动平台上部署大型语言模型和多模态模型的性能和可行性洞察,加速移动 AI 研究和部署。
- SimulTron: 设备本地实时语音翻译
SimulTron 是一种轻量级的直接 S2ST 模型,通过在移动设备上进行实时评估,优于 Translatotron 1 的性能,并在 MuST-C 数据集上实现了优越的 BLEU 得分和延迟,展示了在 Pixel 7 Pro 设备上同时 - 移动设备上的高效神经光场
该研究论文介绍了一种新型网络结构,通过通道结构剪枝的压缩技术,可以在移动设备上高效运行,对于新颖视图合成、神经辐射场、神经光场和移动设备都具有重要的研究意义。
- 深度网络剪枝:关于人脸识别中 CNN 的比较研究
通过深度网络剪枝等方法,对基于小型 SqueezeNet、流行的 MobileNetv2 和 ResNet50 架构的网络进行压缩,以实现移动设备上的可靠且实时的人脸识别。
- 异构移动处理器上的深度学习推理:潜力与陷阱
在资源受限的移动设备上部署计算密集型的深度学习模型以实现实时智能应用的需求与日俱增,在各种处理单元(如 CPU、GPU 和 NPU)的支持下,移动设备有潜力通过在异构处理器之间进行并行执行来加速深度学习推理。本文通过精心设计的实验,涵盖了各 - ICLR基于多样配置的移动设备控制代理的基准测试
通过引入 B-MoCA 基准测试,本研究针对移动设备控制代理开发自主代理,提高用户交互的效率和可访问性。在 Android 操作系统上创建了一个真实的基准测试,定义了 60 项常见日常任务,并通过随机化功能来评估代理的泛化性能。尽管代理们在 - LASPA:用于快速训练无需标记的单图像编辑的潜在空间对齐
我们提出了一种新颖的,无需训练的方法,用于实现基于扩散模型的真实图像的文本编辑。我们的方法利用潜在空间对齐(LASPA)有效地保留图像细节,通过扩散过程与参考图像进行空间引导,从而实现语义上连贯的编辑。该方法无需复杂的优化和昂贵的模型微调, - 使用嵌入式设备上的超维度计算增强皮肤透醇水平检测
酒精消耗对个人健康有重大影响,过度饮酒时后果更为显著。实施及时干预的健康饮酒习惯是一种促进方法,通过在大量饮酒时发送提示醉酒的及时通知。本研究旨在使用超维计算技术设计一种适用于智能手机、智能可穿戴设备和物联网部署的即时干预方法,通过研究不同 - 重构一切:用 LLM 智能代理进行开放世界视频重构
通过使用大型语言模型 LLM,本研究提出了一种基于视觉基础模型和人类指导的 Reframe Any Video Agent (RAVA) 来自动化视频重构过程,实验证明了 RAVA 在视频显著对象检测和实际重构任务上的有效性,展示了其作为 - MobileLLM: 优化千亿级语言模型,以满足设备上的使用需求
通过设计深而瘦的体系结构以及嵌入共享和分组查询注意机制,我们提出了一种名为 MobileLLM 的强基线网络,它在先前的 125M/350M 最先进模型上分别获得 2.7%/4.3% 的准确度提升。此外,我们还提出了一种即时的分块权重共享方 - 通过多媒体容器结构分析验证智能手机视频的身份和完整性
通过分析移动设备生成的视频容器的结构和在社交网络、即时消息应用中共享时的行为,本文提出了一种检测可能影响视频完整性和真实性的 MP4、MOV 和 3GP 格式视频攻击的新技术,旨在验证视频的完整性,识别获取源以及区分原始视频和被篡改视频。
- 云移结合 在机器学习中的应用
通过模型分割和设计调度程序,我们将计算任务在移动设备和云端之间进行灵活而细粒度的分配,从而既减少用户的等待时间,又优化云端的工作负载。
- 移动电话上使用相机融合的高效混合变焦
提出了一种在移动设备上的混合变焦超分辨率的有效系统,通过捕捉一对同步的广角镜头和望远镜头拍摄的图像,并利用机器学习模型将细节从望远镜头转移到广角镜头,进一步提出了自适应混合方法以解决景深不匹配、场景遮挡、流动不确定性和对齐误差问题,并通过在 - MobileVLM: 移动设备上快速、可重现和强大的视觉语言助手
我们提出了 MobileVLM,这是一个专为移动设备设计的多模式视觉语言模型(MMVLM)。它集成了各种移动设备定向的架构设计和技术,包括一组从头训练的 1.4B 和 2.7B 参数规模的语言模型,以及使用 CLIP 风格预训练的多模式视觉 - UINav:UI 自动化代理的制造者
提出了一种名为 UINav 的演示式代理系统,能够以简单手势为主的任务演示实现高成功率,并在保持较轻量级的同时可在移动设备上运行,通过采用裁判模型、宏操作和增加训练数据的方式,最小化任务演示次数,对于每个任务平均 10 次演示,UINav - 使用图神经网络在无线多跳网络中进行拥塞感知的分布式任务卸载
通过在基于分布式贪婪框架上引入基于图的机器学习,我们提出了一种低开销、拥塞感知的分布式任务卸载方案,以应对无线多跳网络中来自多个移动设备的任务所造成的潜在网络拥塞问题。在仿真的无线多跳网络中,根据最短路径路由和基于争用的链路调度的资源分配方 - LinguaLinked:移动设备上的分布式大型语言模型推理系统
LinguaLinked 是一种分散、分布式的移动设备上的 LLM 推理系统,它通过优化模型分配、优化数据传输机制和运行时负载平衡器来提高系统的效率和响应速度。
- MobileDiffusion:移动设备上的次秒级文本到图像生成
通过在架构和采样技术上进行广泛优化,我们提出了一种高效的 MobileDiffusion 文本到图像扩散模型,它在移动设备上实现了显著的亚秒级图像生成推断速度,创立了新的技术水平。
- 使用分散聚合进行具有差分隐私的联邦学习
移动设备、隐私、实用性、联邦学习和差分隐私是该研究的主要关键词,研究通过在联邦学习中采用差分隐私的实验环境并使用基准数据集来探讨隐私与实用性之间的平衡问题。