UFO:统一特征优化
本论文提出了一种统一的变换器(UFO),以处理单模态或多模态输入,进行视觉 - 语言表示学习。 我们使用单个变压器网络并在 VL 预训练期间强制进行多任务学习,包括基于双向和 seq2seq 注意掩码的图像文本对比损失,图像文本匹配损失和遮蔽语言建模损失。 我们在诸如视觉问答,COCO 图像字幕(交叉熵优化)和 nocaps(在 SPICE 中)之类的其他下游任务中,实现了新的技术水平。
Nov, 2021
本文提出了一种名为 UFO$^2$ 的统一目标检测框架,可以同时处理不同形式的监督学习,包括强监督(如 bounding boxes)和各种形式的部分监督学习(如类别标签、点、涂鸦)和未标记数据。作者通过严格的评估表明,每种形式的标签可以用于从头开始训练模型或进一步改善预训练模型,同时在固定的注释预算下研究各种注释策略,在不需要强标签的情况下可以实现有竞争力的性能。最后,作者还证明了 UFO$^2$ 的泛化能力,可以检测超过 1,000 种不同的物体,而无需 bounding box 标注。
Oct, 2020
提出了一个针对 3D 点云中未知前景对象(UFO)检测的新问题,该问题是野外自动驾驶中至关重要的技术。通过建立一个包括评估协议、方法论和基准的新的 UFO 检测框架,解决了现有 3D 对象检测器在 3D 定位和超出分布(OOD)检测方面遇到的极大挑战。该框架在 KITTI Misc 基准和额外合成基准上通过四个基线检测器(SECOND、PointPillars、PV-RCNN、PartA2)跨越性能提升了一个较大的幅度,并为未来的野外 UFO 检测工作提供了新的见解。
Jan, 2024
通过 Unified Facts Obtaining (UFO) 方法使用大规模语言模型,获取事实并在各种常识问答方面进行推理,从而在各基准测试中显着提高推理模型的性能。
May, 2023
本文提出了一种解决图像编辑中寻找前景对象的技术 —— 无约束前景物体搜索,并介绍了一种支持通过将背景图像与前景对象进行编码来进行高效搜索的解决方案。通过创建具有不同语义类别的多个前景对象的大型训练数据集,我们的无约束前景物体搜索解决方案优于相关基线,这在两个不同的数据集上进行了定量和人类感知实验的证实。
Aug, 2019
大语言模型(LLMs)可能生成与人类知识不一致的文本,导致事实错误或产生虚构。为解决这些问题,本研究将可用的事实来源分类为人工书写证据、参考文献、搜索引擎结果和 LLM 知识,并提出了一种名为 UFO 的基于 LLM 的统一灵活评估框架,以验证事实。实验结果表明,在大多数问题回答任务中,人工书写证据和参考文献至关重要,并且在基于检索的问题回答任务中可以相互替代。在新闻事实生成任务中,搜索引擎结果和 LLM 知识至关重要。
Feb, 2024
我们介绍了一种创新的 UI-Focused 代理 UFO,它可以根据 Windows 操作系统上的应用程序满足用户定制请求,利用 GPT-Vision 的能力。UFO 采用双代理框架,精确观察和分析 Windows 应用程序的图形用户界面(GUI)和控制信息,使代理能够在单个应用程序内部和跨应用程序进行无缝导航和操作,以满足用户请求,即使涵盖多个应用程序。该框架包含一个控制交互模块,无需人工干预即可促进行动接地,实现完全自动化执行。因此,UFO 将繁琐和耗时的过程转化为仅通过自然语言命令即可完成的简单任务。我们在 9 个广受欢迎的 Windows 应用程序上对 UFO 进行了测试,涵盖了用户日常使用的各种场景。通过定量指标和实际案例研究得出的结果,突显出 UFO 在满足用户请求方面的卓越效果。据我们所知,UFO 是第一个专门为 Windows 操作系统环境中的任务完成而量身定制的 UI 代理。UFO 的开源代码可在此 https URL 上获取。
Feb, 2024
本文介绍了一种名为 Non-Euclidean Upgrading 的元程序,它通过学习特征映射来嵌入大多数模型类的全局逼近性质,并且学习得到的特征表达式总是特征空间的亚流形。
Aug, 2018
使用一个多角度一致性损失函数,我们提出了 FeatUp,一种可以恢复深度特征中丢失空间信息的任务和模型无关的框架。通过保持原始语义,FeatUp 在现有应用中替换特征,从而取得了分辨率和性能上的提升,甚至无需重新训练,我们在类别激活图、分割和深度预测的传递学习以及语义分割的端到端训练方面展示了 FeatUp 明显优于其他特征上采样和图像超分辨率方法。
Mar, 2024
通过自然的相关任务分组,结合多任务学习方法,将监督信息编码到模型中,探索并实现了两种神经网络结构,分别在不同层级学习不同的特征空间,并在自然语言理解中取得了显著的性能提升。
Jul, 2019